آینده‌ فناوری تشخیص صوتی

برای تعامل با دستگاه‌های مختلف، روش‌های گفتاری نسبت به فشار دادن دکمه و استفاده از صفحه‌های لمسی بسیار طبیعی‌تر هستند و در سال‌های اخیر ظهور دستیارهای دیجیتال صوتی که در هر وسیله‌ای ادغام می‌شوند، منجر به افزایش چشمگیر محبوبیت روش‌های تعامل گفتاری شده است.

این رشد به دلیل تلاش‌های کمپانی‌هایی مثل XMOS میسر شده است. شاید این نام برای شما چندان آشنا نباشد اما اگر تا به حال از دستگاه‌هایی مجهز به الکسا استفاده کرده باشید، پس از تکنولوژی‌های این کمپانی بهره برده اید.

XMOS یک کمپانی تولید بدون ساختِ[۱] نیمه‌هادی است که در زمینه پردازش صدا تخصص دارد. الگوریتم‌های این کمپانی قادر به تشخیص فرمان‌های صوتی در کل محیط یک اتاق و حتی در شرایط چالش برانگیز (مثل اتاق‌هایی با سطوح سخت فراوان) هستند. اما چرا تکنولوژی تشخیص صدا با چنین سرعتی پیشرفت کرده است؟

به گفته Alex Craciun مهندس الگوریتم در XMOS “شاید به این دلیل که این تکنولوژی‌ها زندگی انسان‌ها را آسان‌تر می‌کنند. با این روش نیازی به کابل‌های مختلف و دستورالعمل‌های پیچیده ندارید. می‌توانید فقط فرمان ارسال کنید تا دستگاه خودش را تنظیم کند یا به آن بگویید کار مورد نظر شما را انجام دهد. این روش بسیار آسانتر است.”

Esther Connock مدیر بازاریابی این شرکت می‌گوید: “من همیشه به پدر و مادرم در حوزه فناوری اطلاعات کمک می‌کردم و فکر می‌کنم تشخیص گفتار به این شرایط پایان خواهد داد چون کار با تکنولوژی را بسیار راحت‌تر می‌کند. این تکنولوژی نیاز به ریموت کنترل ندارد، نیاز به دفترچه راهنما ندارد؛ فقط باید به روشی کاملاً طبیعی و محاوره‌ای با آن صحبت کنید و بنابراین نیازی به آموزش نحوه استفاده از آن وجود نخواهد داشت. لازم نیست که برای کار با آن دانش و تخصص خاصی داشته باشید.”

“برای افرادی با سواد یا سطح آموزش کم، این تکنولوژی صحنه عمل را بسیار بازتر می‌کند. بخش‌های آسیب پذیر جامعه هم می‌توانند از تکنولوژی استفاده کنند و از انزوا خارج شوند. برای ما، حرف زدن طبیعی ترین چیز در دنیاست.”

پیشرفت تکنولوژی‌های صوتی

XMOS که بخشی از صنعت رو به رشد تکنولوژی در شهر بریستول بریتانیا است از چند موسسه و سازمان در این شهر یعنیUltrahaptics (که از فراصوت برای ایجاد حس لمس در هوا استفاده می‌کند)، Reach Robotics (سازنده ربات واقعیت مجازی Mekamon) و Graphcore (یکی از شرکت‌های تابعه XMOS) کمک می‌گیرد.

تکنولوژی‌های مورد استفاده برای شناسایی و تفکیک صدا عبارتند از: شکل‌دهی پرتو (که حرکت صدای فرد را در اطراف اتاق تعقیب می‌کند و میکروفون را طوری حرکت می‌دهد تا صدا را دنبال کند)، ﺣﺬف ﭘﮋواک آﮐﻮﺳﺘﯿﮑﯽ (تفکیک صدای کاربر از صدایی که توسط خود دستگاه پخش می‌شود)، deverberation (متعادل کردن پژواک‌ها) و کنترل ثابت یا خودکار (اطمینان از این که صرف نظر از میزان بلندی صدای یک شخص، تمام صداها با یک سطح ولوم خاص شنیده می‌شوند).

این کمپانی در سال ۲۰۰۵ تاسیس شد و تحقیقات دانشگاه بریستون انگیزه‌ای برای تاسیس آن بود. به گفته Connock “این گروه میکروکنترلری را ساختند که می‌توانست پردازش‌های زیادی انجام دهد، قدرت و ظرفیت زیادی داشت و می‌توانست به صورت همزمان کارهای بسیار زیادی را انجام دهد… و این بشدت هیجان انگیز بود.”

تصمیم اپل برای حذف پورت FireWire در سال ۲۰۰۸، بازار را برای کانکشن‌های صوتی USB باز کرد و XMOS نیز در همین بازار شروع به فعالیت کرد. این کمپانی برای شرکت‌های بزرگی مثل Harmon Kardon و Yamaha هم کار کرده و قبل از حرکت به سمت تکنولوژی‌های صوتی چندکاناله به دی‌جی‌ها هم برای طراحی میز میکسر کمک می‌کرد.

Connock می‌گوید: “با بوردی که قدرت پردازش زیادی داشته باشد، می‌توانیم وسایلی تولید کنیم که تا ۳۲ کانال خروجی داشته باشند و در نتیجه می‌توانیم صدای چندکاناله فوق العاده‌ای ایجاد کنیم؛ این تخصص در حوزه صدا و تصویر ما را به سمت تکنولوژی‌های صوتی سوق داد. یکی از مشتریان ما می‌گوید:’با توجه به تخصص فوق العاده‌ای که دارید باید به تولید محصولاتی مثل میکروفون و ضبط صدا فکر کنید’ و ما هم دقیقاً همین کار را انجام دادیم.”

از نظر ما، تکنولوژی‌های تشخیص گفتار باعث دموکراتیزه کردن تکنولوژی می‌شوند چون نیازی به یادگیری نحوه کار با آن ندارید. “Esther Connock, XMOS”

در سال ۲۰۱۷، شرکت XMOS گواهینامه آمازون را برای تولید اینترفیس‌های صوتی دریافت کرد. Connock می‌گوید: “ما همچنان تنها همکار ذیصلاح آنها برای تولید راهکارهای استریو هستیم بنابراین برای هر کسی که به دنبال تولید تلویزیون، ساندبار و کار در استدیوهای واقعی است ما تنها شرکتی هستیم که می‌تواند حذف پژواک در صدای استریو را انجام دهد… این موضوع برای ما اهمیت زیادی دارد و امسال در CES تمرکز زیادی بر آن خواهیم داشت. بعلاوه ما تنها شرکتی هستیم که از Baidu مجوز دریافت کرده است، این برای ما بسیار مهیج است و با شرکت NTT Docomo نیز همکاری می‌کنیم. ما در حال گسترش فعالیت‌هایمان در مناطق مختلف هستیم.”

خارج از فضای خانه

XMOS در حال حاضر در زمینه تولید اپلیکیشن‌های صوتی تخصص دارد که در فضاهای داخلی استفاده می‌شوند اما سعی دارد در سایر حوزه‌ها از جمله اینترفیس‌های درون خودرویی هم فعالیت کند.

Connock می‌گوید: “تکنولوژی که ما در بوستون روی آن کار می‌کردیم – تفکیک منبع صدا که می‌تواند صداهای مختلف را در یک مکالمه استخراج کند – برای خودروها بسیار خوب کار می‌کند. در این صورت مثلاً شخصی در حال رانندگی با شما تماس می‌گیرد و سیستم به صورت خودکار تمام صداهای اضافه را حذف می‌کند. ممکن است بچه‌ها در حال فریاد زدن باشند یا یک فیلم در حال پخش باشد، اما شما فقط صدای فرد مورد نظر را می‌شنوید.”

این کمپانی پیش بینی جالبی برای آینده‌ی تکنولوژی‌های صوتی دارد: تولید دستیارهای شخصی (در یک گوشی هوشمند پوشیدنی و انعطاف پذیر) که بین ما و کمپانی‌هایی بزرگی که در حال حاضر سرویس‌های تشخیص صدا را ارائه می‌کنند قرار می‌گیرد. Connock توضیح داد: “اگر نگاهی به گوگل و آمازون داشته باشیم (و تا حدی اپل و اپل موزیک) متوجه می‌شویم که این کمپانی‌ها تا حدی مغرضانه عمل می‌کنند چون تلاش دارند تجهیزات و وسایل خاصی را به ما بفروشند. من به شخصه دوست دارم از آمازون خرید کنم اما چیزی که هیچ تمایلی برای آن ندارم اسپم صوتی است و لحظه‌ای که این اتفاق بیفتد مردم از این تکنولوژی دور می‌شوند.”

راهکار این کمپانی چیزی شبیه یک لایه میانی است که همه اسپم‌ها را فیلتر می‌کند و شما را به سمت سرویسی هدایت می‌کند که مناسب ترین محتوا را برای شما داشته باشد (و به سلایق و اولویت‌های مورد نظر شما توجه می‌کند).

همزاد دیجیتال

این فناوری صرفاً در حد یک ایده نیست، XMOS کارهایی را برای تحقق آن شروع کرده است. Connock می‌گوید: “این اتفاق به سرعت خواهد افتاد ما به دنبال جلب همکاری و تلاش برای ساخت این اکوسیستم هستیم. در حال حاضر عده زیادی در این حوزه کار می‌کنند. این حوزه تحقیق باز شده و آماده است و ما می‌خواهیم از آن بهره برداری کنیم.”

این سیستم علاوه بر یادگیری سلایق من در حوزه موسیقی، تمام سلایق و اولویت‌های دیگر من را هم یاد می‌گیرد.”Esther Connock, XMOS”

به گفته Connock، این حرکت منجر به خلق یک “همزاد دیجیتال” می‌شود و شیوه استفاده شما از تکنولوژی را یادگرفته و با آن تطبیق پیدا می‌کند. مثلاً می‌تواند یاد بگیرد که شما تمایل دارید همیشه شروع کننده مکالمه باشید.

“این سیستم علاوه بر یادگیری سلایق من در زمینه موسیقی تمام سلایق دیگر من را هم یاد می‌گیرد. این که چه مواقعی ناراحت و پریشان می‌شوم یا این که بیشتر ترجیح می‌دهم با کدامیک از دوستانم صحبت کنم – همه چیز.”

گفتگوی طبیعی

اما حتی با وجود دستیار صوتی که هر نوع اسپمی را به خوبی فیلتر می‌کند، تکنولوژی تشخیص صدا همچنان با چالش‌هایی روبروست.

Connock می‌گوید: “وقتی دقیق‌تر به گوشی‌های هوشمند نگاه می‌کنیم، می‌بینیم که همیشه روشن هستند، دوربین دارند، می‌توانند همیشه صدای شما را بشنوند، حسگرهای مختلفی دارند، می‌توانند داده‌های زیادی را جمع آوری کنند، شما همه چیز را در این گوشی‌ها تایپ می‌کنید و از آنجایی که به آنها عادت کردید، وابستگی زیادی به آنها دارید، این گوشی‌ها بسیار به ما نزدیک هستند ولی مردم به هیچ وجه آنها را مشکلی برای حریم خصوصی خودشان نمی‌دانند.”

این حوزه با سرعت بسیار بسیار زیادی در حال پیشرفت است. ممکن است همین فردا یک تکنولوژی یا محصول بسیار طبیعی‌تر عرضه شود. “Alex Craciun, XMOS”

“و با این حال وقتی اسپیکری را در وسط اتاقی قرار می‌دهید همه می‌گویند ‘این وسیله حرفهای ما را می‌شنود!’ بله اما نه به اندازه گوشی موبایل!”

Connock باور دارد که کلید پذیرش عمومی و گسترده‌ی تکنولوژی‌های تشخیص صدا، ارائه محتوایی مناسب و قابل اطمینان است. لحظه‌ای که این صنعت، فروش را بر تجربیات کاربران مقدم بداند، دچار مشکل خواهد شد بنابراین XMOS سعی دارد اطمینان حاصل کند که همیشه در این زمینه پیشقدم است و آمادگی مقابله با چنین شرایطی را دارد.

همچنین، سوالاتی درباره مکالمه طبیعی به جای ارسال فرمان وجود دارد. Alexa Skill بسیار مفید و کاربردی است اما شباهت چندانی به صحبت کردن با یک انسان ندارد. طراحان الگوریتم XMOS در حال تلاش برای طبیعی‌تر کردن هر چه بیشتر تعاملات هستند.

Connock می‌گوید: “انسان‌ها باید حس کنند که ماشین احساسات آنها را درک می‌کند؛ در این صورت شاهد پیشرفت و رونق چشمگیر این تکنولوژی خواهیم بود.”

هر چند چنین تکنولوژی‌هایی علمی و تخیلی به نظر می‌رسند اما به گفته Craciun ما بشدت به ساخت این تکنولوژی نزدیک شده ایم. وی می‌گوید: “به نظرم این اتفاق همین حالا هم افتاده است… ما شاهد دستاوردهای بزرگی از شرکت آمازون هستیم؛ هر ماه یک محصول جدید وارد بازار می‌شود. این حوزه با سرعت بسیار بسیار زیادی در حال پیشرفت است. ممکن است همین فردا یک محصول بسیار طبیعی‌تر عرضه شود.”

[۱] تولید بدون ساخت به فرآیند طراحی و فروش سخت‌افزار و تراشه‌های نیمه‌هادی و برون‌سپاری در مرحله تولید، به شرکت‌های اختصاصی تولید نیمه‌هادی معروف به شرکت‌های ریخته‌گری نیمه‌هادی گفته می‌شود.

آینده‌ فناوری تشخیص صوتی

sajjad شنبه 23 شهریور 1398 ساعت 15:24

مجله تکین مال

مجله تکین مال

آینده‌ فناوری تشخیص صوتی