AI 耳機創造寧靜空間
研究人員關閉嘈雜的世界,幫助用戶專注於附近的對話
我們都曾經有過這樣的經歷:不論是在餐廳與朋友聚餐、在雞尾酒會上結識有趣的人,還是在辦公室的喧鬧中開會,我們經常需要提高聲音來壓過背景的嘈雜聲。人類的耳朵和大腦在嘈雜環境中並不擅長分辨不同的聲音來源,以便專注於特定的對話。這種能力在一般聽力下降的情況下會進一步惡化,而隨著人們壽命的延長,這種現象變得越來越普遍,最終可能導致社交孤立。
不過,來自華盛頓大學、微軟和 Assembly AI 的研究團隊最近展示了人工智能在隔離聲音來源方面的優勢,能夠創造出一個寧靜的區域。這個聲音泡泡允許半徑達 2 米內的人進行對話,並大幅減少來自其他說話者或外部噪音的干擾。
該團隊由華盛頓大學的教授 Shyam Gollakota 領導,目標是將 AI 與硬件結合,增強人類的能力。Gollakota 表示,這與使用像 ChatGPT 這樣的龐大計算資源不同;相反,挑戰在於在硬件限制內創建有用的 AI 應用,特別是針對移動或可穿戴設備。Gollakota 一直認為,所謂的「雞尾酒會問題」是一個普遍存在的問題,這種方法可以有效且有益。
目前市面上可用的降噪耳機雖然能夠壓制背景噪聲,但無法考慮聲音來源的距離或封閉空間中的回聲等其他問題。然而,以前的研究顯示,神經網絡在聲音來源的分離上表現得比傳統信號處理更好。在此基礎上,Gollakota 的團隊設計了一種集成硬件和 AI 的「可聽」系統,能夠分析音頻數據,清晰識別指定泡泡大小內外的聲音來源。該系統實時抑制多餘的聲音,使用戶聽到的內容與他們觀看說話者的視覺之間沒有可察覺的延遲。
該系統的音頻部分是一款商用降噪耳機,配備多達六個麥克風,能夠檢測附近和較遠的聲音,為神經網絡分析提供數據。專門構建的網絡能夠找到聲音來源的距離,並確定哪些聲音位於可編程的 1 米、1.5 米或 2 米的泡泡半徑內。這些網絡使用模擬和真實世界數據進行訓練,數據來自 22 個不同大小和聲音吸收特性的房間,並包含不同組合的人類受試者。該算法運行在小型嵌入式 CPU(如 Orange Pi 或 Raspberry Pi)上,並在毫秒內將處理過的數據返回耳機,速度足夠快,以保持聽覺和視覺的同步。
該原型中的算法將空泡外的聲音音量降低了 49 dB,約等於泡泡內強度的 0.001%。即使在新的聲學環境中,且有不同用戶,該系統仍能良好運作,能夠應對泡泡內最多兩位講話者和一至兩位外部干擾者,即使他們的聲音更大。它還能適應新的講話者進入泡泡的情況。
想像一下,這種系統在可定制的降噪設備中的應用,尤其是在嘈雜環境中需要清晰且輕鬆的口頭交流時。社交孤立的危害是眾所周知的,而這種專門設計用於增強人與人之間交流的技術可能會有所幫助。Gollakota 認為,幫助人們集中聽覺和空間注意力以進行個人互動是有價值的。
聲音泡泡技術最終也可能被整合到助聽器中。谷歌和瑞士助聽器製造商 Phonak 分別在他們的耳機和助聽器中添加了 AI 元素。Gollakota 現在正在考慮如何將聲音泡泡方法應用到舒適可穿戴的助聽器格式中。為了實現這一點,設備必須能夠適應耳塞或耳後配置,並在左右單元之間無線通信,還要能夠在小電池上全天運行。
Gollakota 對此充滿信心。他表示:「我們正處於硬件和算法相結合以支持 AI 增強的時代。這不是關於 AI 取代工作,而是通過人機界面對人們產生積極影響。」
這篇文章展示了科技如何在日常生活中解決實際問題,特別是在社交互動上。隨著技術的進步,我們有理由相信未來的溝通方式將變得更加便捷和高效,這不僅能改善我們的社交生活,還能幫助那些因聽力問題而面臨困難的人。這樣的技術發展不僅是對人類能力的擴展,也是對人際關係的重塑,讓我們期待未來的應用能夠真正帶來變革。
以上文章由特價GPT API KEY所翻譯及撰寫。而圖片則由FLUX根據內容自動生成。