مكالمه خصوصي در اتاق‌هاي پر سر و صدا با يك هدفون جديد

۱۴۰۴/۰۹/۲۰ - ۰۹:۵۹:۵۱
کد خبر: ۳۶۹۴۲۷

هدفون‌هاي «ايزوله‌كننده مكالمه» مجهز به هوش مصنوعي، امكان مكالمه خصوصي را در اتاق‌هاي پر سر و صدا فراهم مي‌كنند. اين دستيار شنوايي فعال، گويندگان را در عرض چند ثانيه شناسايي كرده و هر صداي ديگري را سركوب مي‌كند و در آزمايش‌هاي اوليه موفق نشان داده است.

 به گزارش ايسنا، افراد در اتاق‌هاي شلوغ، هنگام پخش موسيقي، صداي تق‌ و تق بشقاب‌ها و با وجود ده‌ها مكالمه ميان افراد مختلف صحبت مي‌كنند و براي بسياري، گوش دادن به يك صدا به گوش تيز كردن و تلاش ذهني زيادي نياز دارد. اين در حالي است كه اين تلاش براي افرادي كه مشكلات شنوايي دارند، مي‌تواند طاقت‌فرسا باشد. اكنون گروهي از محققان دانشگاه واشينگتن (Washington) مي‌گويند كه راهي براي عبور از اين سر و صدا پيدا كرده‌اند. هدفون‌هاي هوشمند جديد مجهز به هوش مصنوعي مي‌توانند به‌طور خودكار صداي طرف مقابل مورد نظر كاربر براي مكالمه را از هرج و مرج اطراف جدا كنند. برخلاف دستگاه‌هاي ايزوله‌كننده گفتار موجود، نمونه اوليه اين هدفون جديد منتظر ورودي دستي نمي‌ماند. هدفون‌ها تشخيص مي‌دهند كه چه كسي بخشي از مكالمه است و صداهايي را كه با ريتم گفتار نوبتي مطابقت ندارند، خاموش مي‌كنند. يك مدل هوش مصنوعي الگوهاي زمان‌بندي را تجزيه و تحليل مي‌كند و ديگري صداهاي نامربوط را فيلتر مي‌كند. اين سيستم، طرف‌هاي مكالمه را در عرض دو تا چهار ثانيه شناسايي مي‌كند. اين تيم، كار خود را به تازگي در چين و در كنفرانس روش‌هاي تجربي در پردازش زبان طبيعي به اشتراك گذاشت. گفتني است كه كد اصلي آن متن‌باز است. محققان معتقدند كه اين فناوري مي‌تواند از سمعك‌ها، هدفون‌ها و عينك‌هاي هوشمند آينده پشتيباني كند. شيام گولاكوتا (Shyam Gollakota) نويسنده ارشد اين مطالعه گفت كه رويكردهاي قبلي بسيار فراتر از انتظار كاربران هستند. وي افزود: رويكردهاي موجود براي شناسايي اينكه فرد به چه كسي گوش مي‌دهد، عمدتا شامل الكترودهاي كاشته شده در مغز براي رديابي توجه است. وي خاطرنشان كرد كه الگوهاي طبيعي در گفت‌وگو، مسير بهتري را ارايه مي‌دهند. گولاكوتا ادامه داد: بينش ما اين است كه وقتي با گروه خاصي از افراد صحبت مي‌كنيم، گفتار ما به‌طور طبيعي از يك ريتم نوبتي پيروي مي‌كند و ما مي‌توانيم هوش مصنوعي را آموزش دهيم تا اين ريتم‌ها را فقط با استفاده از صدا، بدون نياز به كاشت الكترود، پيش‌بيني و رديابي كند. اين سيستم زماني فعال مي‌شود كه فرد شروع به صحبت مي‌كند. مدل اول، بررسي اينكه «چه كسي چه زماني صحبت كرده است» را اجرا مي‌كند و به دنبال همپوشاني كم بين گويندگان مي‌شود. مدل دوم سيگنال را پالايش مي‌كند و صداي ايزوله شده را به صورت لحظه‌اي به كاربر بازمي‌گرداند. نمونه اوليه در حال حاضر از مكالماتي كه شامل كاربر و حداكثر چهار گوينده ديگر مي‌شود، بدون تأخير قابل توجه پشتيباني مي‌كند. محققان اين تجربه را با ۱۱ شركت‌كننده آزمايش كردند. آنها وضوح، حذف نويز و درك مطلب را با و بدون فيلترها ارزيابي كردند. نسخه فيلتر شده بيش از دو برابر امتياز بيشتري كسب كرد.