مكالمه خصوصي در اتاقهاي پر سر و صدا با يك هدفون جديد
هدفونهاي «ايزولهكننده مكالمه» مجهز به هوش مصنوعي، امكان مكالمه خصوصي را در اتاقهاي پر سر و صدا فراهم ميكنند. اين دستيار شنوايي فعال، گويندگان را در عرض چند ثانيه شناسايي كرده و هر صداي ديگري را سركوب ميكند و در آزمايشهاي اوليه موفق نشان داده است.
به گزارش ايسنا، افراد در اتاقهاي شلوغ، هنگام پخش موسيقي، صداي تق و تق بشقابها و با وجود دهها مكالمه ميان افراد مختلف صحبت ميكنند و براي بسياري، گوش دادن به يك صدا به گوش تيز كردن و تلاش ذهني زيادي نياز دارد. اين در حالي است كه اين تلاش براي افرادي كه مشكلات شنوايي دارند، ميتواند طاقتفرسا باشد. اكنون گروهي از محققان دانشگاه واشينگتن (Washington) ميگويند كه راهي براي عبور از اين سر و صدا پيدا كردهاند. هدفونهاي هوشمند جديد مجهز به هوش مصنوعي ميتوانند بهطور خودكار صداي طرف مقابل مورد نظر كاربر براي مكالمه را از هرج و مرج اطراف جدا كنند. برخلاف دستگاههاي ايزولهكننده گفتار موجود، نمونه اوليه اين هدفون جديد منتظر ورودي دستي نميماند. هدفونها تشخيص ميدهند كه چه كسي بخشي از مكالمه است و صداهايي را كه با ريتم گفتار نوبتي مطابقت ندارند، خاموش ميكنند. يك مدل هوش مصنوعي الگوهاي زمانبندي را تجزيه و تحليل ميكند و ديگري صداهاي نامربوط را فيلتر ميكند. اين سيستم، طرفهاي مكالمه را در عرض دو تا چهار ثانيه شناسايي ميكند. اين تيم، كار خود را به تازگي در چين و در كنفرانس روشهاي تجربي در پردازش زبان طبيعي به اشتراك گذاشت. گفتني است كه كد اصلي آن متنباز است. محققان معتقدند كه اين فناوري ميتواند از سمعكها، هدفونها و عينكهاي هوشمند آينده پشتيباني كند. شيام گولاكوتا (Shyam Gollakota) نويسنده ارشد اين مطالعه گفت كه رويكردهاي قبلي بسيار فراتر از انتظار كاربران هستند. وي افزود: رويكردهاي موجود براي شناسايي اينكه فرد به چه كسي گوش ميدهد، عمدتا شامل الكترودهاي كاشته شده در مغز براي رديابي توجه است. وي خاطرنشان كرد كه الگوهاي طبيعي در گفتوگو، مسير بهتري را ارايه ميدهند. گولاكوتا ادامه داد: بينش ما اين است كه وقتي با گروه خاصي از افراد صحبت ميكنيم، گفتار ما بهطور طبيعي از يك ريتم نوبتي پيروي ميكند و ما ميتوانيم هوش مصنوعي را آموزش دهيم تا اين ريتمها را فقط با استفاده از صدا، بدون نياز به كاشت الكترود، پيشبيني و رديابي كند. اين سيستم زماني فعال ميشود كه فرد شروع به صحبت ميكند. مدل اول، بررسي اينكه «چه كسي چه زماني صحبت كرده است» را اجرا ميكند و به دنبال همپوشاني كم بين گويندگان ميشود. مدل دوم سيگنال را پالايش ميكند و صداي ايزوله شده را به صورت لحظهاي به كاربر بازميگرداند. نمونه اوليه در حال حاضر از مكالماتي كه شامل كاربر و حداكثر چهار گوينده ديگر ميشود، بدون تأخير قابل توجه پشتيباني ميكند. محققان اين تجربه را با ۱۱ شركتكننده آزمايش كردند. آنها وضوح، حذف نويز و درك مطلب را با و بدون فيلترها ارزيابي كردند. نسخه فيلتر شده بيش از دو برابر امتياز بيشتري كسب كرد.
