برای تعامل با دستگاههای مختلف، روشهای گفتاری نسبت به فشار دادن دکمه و استفاده از صفحههای لمسی بسیار طبیعیتر هستند و در سالهای اخیر ظهور دستیارهای دیجیتال صوتی که در هر وسیلهای ادغام میشوند، منجر به افزایش چشمگیر محبوبیت روشهای تعامل گفتاری شده است.
این رشد به دلیل تلاشهای کمپانیهایی مثل XMOS میسر شده است. شاید این نام برای شما چندان آشنا نباشد اما اگر تا به حال از دستگاههایی مجهز به الکسا استفاده کرده باشید، پس از تکنولوژیهای این کمپانی بهره برده اید.
XMOS یک کمپانی تولید بدون ساختِ[۱] نیمههادی است که در زمینه پردازش صدا تخصص دارد. الگوریتمهای این کمپانی قادر به تشخیص فرمانهای صوتی در کل محیط یک اتاق و حتی در شرایط چالش برانگیز (مثل اتاقهایی با سطوح سخت فراوان) هستند. اما چرا تکنولوژی تشخیص صدا با چنین سرعتی پیشرفت کرده است؟
به گفته Alex Craciun مهندس الگوریتم در XMOS “شاید به این دلیل که این تکنولوژیها زندگی انسانها را آسانتر میکنند. با این روش نیازی به کابلهای مختلف و دستورالعملهای پیچیده ندارید. میتوانید فقط فرمان ارسال کنید تا دستگاه خودش را تنظیم کند یا به آن بگویید کار مورد نظر شما را انجام دهد. این روش بسیار آسانتر است.”
Esther Connock مدیر بازاریابی این شرکت میگوید: “من همیشه به پدر و مادرم در حوزه فناوری اطلاعات کمک میکردم و فکر میکنم تشخیص گفتار به این شرایط پایان خواهد داد چون کار با تکنولوژی را بسیار راحتتر میکند. این تکنولوژی نیاز به ریموت کنترل ندارد، نیاز به دفترچه راهنما ندارد؛ فقط باید به روشی کاملاً طبیعی و محاورهای با آن صحبت کنید و بنابراین نیازی به آموزش نحوه استفاده از آن وجود نخواهد داشت. لازم نیست که برای کار با آن دانش و تخصص خاصی داشته باشید.”
“برای افرادی با سواد یا سطح آموزش کم، این تکنولوژی صحنه عمل را بسیار بازتر میکند. بخشهای آسیب پذیر جامعه هم میتوانند از تکنولوژی استفاده کنند و از انزوا خارج شوند. برای ما، حرف زدن طبیعی ترین چیز در دنیاست.”
XMOS که بخشی از صنعت رو به رشد تکنولوژی در شهر بریستول بریتانیا است از چند موسسه و سازمان در این شهر یعنیUltrahaptics (که از فراصوت برای ایجاد حس لمس در هوا استفاده میکند)، Reach Robotics (سازنده ربات واقعیت مجازی Mekamon) و Graphcore (یکی از شرکتهای تابعه XMOS) کمک میگیرد.
تکنولوژیهای مورد استفاده برای شناسایی و تفکیک صدا عبارتند از: شکلدهی پرتو (که حرکت صدای فرد را در اطراف اتاق تعقیب میکند و میکروفون را طوری حرکت میدهد تا صدا را دنبال کند)، ﺣﺬف ﭘﮋواک آﮐﻮﺳﺘﯿﮑﯽ (تفکیک صدای کاربر از صدایی که توسط خود دستگاه پخش میشود)، deverberation (متعادل کردن پژواکها) و کنترل ثابت یا خودکار (اطمینان از این که صرف نظر از میزان بلندی صدای یک شخص، تمام صداها با یک سطح ولوم خاص شنیده میشوند).
این کمپانی در سال ۲۰۰۵ تاسیس شد و تحقیقات دانشگاه بریستون انگیزهای برای تاسیس آن بود. به گفته Connock “این گروه میکروکنترلری را ساختند که میتوانست پردازشهای زیادی انجام دهد، قدرت و ظرفیت زیادی داشت و میتوانست به صورت همزمان کارهای بسیار زیادی را انجام دهد… و این بشدت هیجان انگیز بود.”
تصمیم اپل برای حذف پورت FireWire در سال ۲۰۰۸، بازار را برای کانکشنهای صوتی USB باز کرد و XMOS نیز در همین بازار شروع به فعالیت کرد. این کمپانی برای شرکتهای بزرگی مثل Harmon Kardon و Yamaha هم کار کرده و قبل از حرکت به سمت تکنولوژیهای صوتی چندکاناله به دیجیها هم برای طراحی میز میکسر کمک میکرد.
Connock میگوید: “با بوردی که قدرت پردازش زیادی داشته باشد، میتوانیم وسایلی تولید کنیم که تا ۳۲ کانال خروجی داشته باشند و در نتیجه میتوانیم صدای چندکاناله فوق العادهای ایجاد کنیم؛ این تخصص در حوزه صدا و تصویر ما را به سمت تکنولوژیهای صوتی سوق داد. یکی از مشتریان ما میگوید:’با توجه به تخصص فوق العادهای که دارید باید به تولید محصولاتی مثل میکروفون و ضبط صدا فکر کنید’ و ما هم دقیقاً همین کار را انجام دادیم.”
از نظر ما، تکنولوژیهای تشخیص گفتار باعث دموکراتیزه کردن تکنولوژی میشوند چون نیازی به یادگیری نحوه کار با آن ندارید. “Esther Connock, XMOS”
در سال ۲۰۱۷، شرکت XMOS گواهینامه آمازون را برای تولید اینترفیسهای صوتی دریافت کرد. Connock میگوید: “ما همچنان تنها همکار ذیصلاح آنها برای تولید راهکارهای استریو هستیم بنابراین برای هر کسی که به دنبال تولید تلویزیون، ساندبار و کار در استدیوهای واقعی است ما تنها شرکتی هستیم که میتواند حذف پژواک در صدای استریو را انجام دهد… این موضوع برای ما اهمیت زیادی دارد و امسال در CES تمرکز زیادی بر آن خواهیم داشت. بعلاوه ما تنها شرکتی هستیم که از Baidu مجوز دریافت کرده است، این برای ما بسیار مهیج است و با شرکت NTT Docomo نیز همکاری میکنیم. ما در حال گسترش فعالیتهایمان در مناطق مختلف هستیم.”
XMOS در حال حاضر در زمینه تولید اپلیکیشنهای صوتی تخصص دارد که در فضاهای داخلی استفاده میشوند اما سعی دارد در سایر حوزهها از جمله اینترفیسهای درون خودرویی هم فعالیت کند.
Connock میگوید: “تکنولوژی که ما در بوستون روی آن کار میکردیم – تفکیک منبع صدا که میتواند صداهای مختلف را در یک مکالمه استخراج کند – برای خودروها بسیار خوب کار میکند. در این صورت مثلاً شخصی در حال رانندگی با شما تماس میگیرد و سیستم به صورت خودکار تمام صداهای اضافه را حذف میکند. ممکن است بچهها در حال فریاد زدن باشند یا یک فیلم در حال پخش باشد، اما شما فقط صدای فرد مورد نظر را میشنوید.”
این کمپانی پیش بینی جالبی برای آیندهی تکنولوژیهای صوتی دارد: تولید دستیارهای شخصی (در یک گوشی هوشمند پوشیدنی و انعطاف پذیر) که بین ما و کمپانیهایی بزرگی که در حال حاضر سرویسهای تشخیص صدا را ارائه میکنند قرار میگیرد. Connock توضیح داد: “اگر نگاهی به گوگل و آمازون داشته باشیم (و تا حدی اپل و اپل موزیک) متوجه میشویم که این کمپانیها تا حدی مغرضانه عمل میکنند چون تلاش دارند تجهیزات و وسایل خاصی را به ما بفروشند. من به شخصه دوست دارم از آمازون خرید کنم اما چیزی که هیچ تمایلی برای آن ندارم اسپم صوتی است و لحظهای که این اتفاق بیفتد مردم از این تکنولوژی دور میشوند.”
راهکار این کمپانی چیزی شبیه یک لایه میانی است که همه اسپمها را فیلتر میکند و شما را به سمت سرویسی هدایت میکند که مناسب ترین محتوا را برای شما داشته باشد (و به سلایق و اولویتهای مورد نظر شما توجه میکند).
این فناوری صرفاً در حد یک ایده نیست، XMOS کارهایی را برای تحقق آن شروع کرده است. Connock میگوید: “این اتفاق به سرعت خواهد افتاد ما به دنبال جلب همکاری و تلاش برای ساخت این اکوسیستم هستیم. در حال حاضر عده زیادی در این حوزه کار میکنند. این حوزه تحقیق باز شده و آماده است و ما میخواهیم از آن بهره برداری کنیم.”
این سیستم علاوه بر یادگیری سلایق من در حوزه موسیقی، تمام سلایق و اولویتهای دیگر من را هم یاد میگیرد.”Esther Connock, XMOS”
به گفته Connock، این حرکت منجر به خلق یک “همزاد دیجیتال” میشود و شیوه استفاده شما از تکنولوژی را یادگرفته و با آن تطبیق پیدا میکند. مثلاً میتواند یاد بگیرد که شما تمایل دارید همیشه شروع کننده مکالمه باشید.
“این سیستم علاوه بر یادگیری سلایق من در زمینه موسیقی تمام سلایق دیگر من را هم یاد میگیرد. این که چه مواقعی ناراحت و پریشان میشوم یا این که بیشتر ترجیح میدهم با کدامیک از دوستانم صحبت کنم – همه چیز.”
اما حتی با وجود دستیار صوتی که هر نوع اسپمی را به خوبی فیلتر میکند، تکنولوژی تشخیص صدا همچنان با چالشهایی روبروست.
Connock میگوید: “وقتی دقیقتر به گوشیهای هوشمند نگاه میکنیم، میبینیم که همیشه روشن هستند، دوربین دارند، میتوانند همیشه صدای شما را بشنوند، حسگرهای مختلفی دارند، میتوانند دادههای زیادی را جمع آوری کنند، شما همه چیز را در این گوشیها تایپ میکنید و از آنجایی که به آنها عادت کردید، وابستگی زیادی به آنها دارید، این گوشیها بسیار به ما نزدیک هستند ولی مردم به هیچ وجه آنها را مشکلی برای حریم خصوصی خودشان نمیدانند.”
این حوزه با سرعت بسیار بسیار زیادی در حال پیشرفت است. ممکن است همین فردا یک تکنولوژی یا محصول بسیار طبیعیتر عرضه شود. “Alex Craciun, XMOS”
“و با این حال وقتی اسپیکری را در وسط اتاقی قرار میدهید همه میگویند ‘این وسیله حرفهای ما را میشنود!’ بله اما نه به اندازه گوشی موبایل!”
Connock باور دارد که کلید پذیرش عمومی و گستردهی تکنولوژیهای تشخیص صدا، ارائه محتوایی مناسب و قابل اطمینان است. لحظهای که این صنعت، فروش را بر تجربیات کاربران مقدم بداند، دچار مشکل خواهد شد بنابراین XMOS سعی دارد اطمینان حاصل کند که همیشه در این زمینه پیشقدم است و آمادگی مقابله با چنین شرایطی را دارد.
همچنین، سوالاتی درباره مکالمه طبیعی به جای ارسال فرمان وجود دارد. Alexa Skill بسیار مفید و کاربردی است اما شباهت چندانی به صحبت کردن با یک انسان ندارد. طراحان الگوریتم XMOS در حال تلاش برای طبیعیتر کردن هر چه بیشتر تعاملات هستند.
Connock میگوید: “انسانها باید حس کنند که ماشین احساسات آنها را درک میکند؛ در این صورت شاهد پیشرفت و رونق چشمگیر این تکنولوژی خواهیم بود.”
هر چند چنین تکنولوژیهایی علمی و تخیلی به نظر میرسند اما به گفته Craciun ما بشدت به ساخت این تکنولوژی نزدیک شده ایم. وی میگوید: “به نظرم این اتفاق همین حالا هم افتاده است… ما شاهد دستاوردهای بزرگی از شرکت آمازون هستیم؛ هر ماه یک محصول جدید وارد بازار میشود. این حوزه با سرعت بسیار بسیار زیادی در حال پیشرفت است. ممکن است همین فردا یک محصول بسیار طبیعیتر عرضه شود.”
[۱] تولید بدون ساخت به فرآیند طراحی و فروش سختافزار و تراشههای نیمههادی و برونسپاری در مرحله تولید، به شرکتهای اختصاصی تولید نیمههادی معروف به شرکتهای ریختهگری نیمههادی گفته میشود.