AI降噪耳機,可在嘈雜人群中單獨通話,看一眼鎖定目標

机器之心發表於2024-06-11

千萬種聲音裡,只聽到你。


最近幾年來,很多人都在使用降噪耳機。這種裝置能讓人在吵鬧的環境中享受安靜,安心地聽音樂或工作。

通常,降噪耳機會透過內建的晶片演算法對外界噪音訊號進行計算,然後由喇叭發出反向聲波進行抵消的方式創造安靜環境。
圖片
不過安靜歸安靜,大多數情況下人們還是需要交流的,這就帶來了不小的挑戰。人們曾提出過各種解決方案,比如蘋果最新款的 AirPods Pro 就會自動調整,如果耳機感知到人在說話就會停止降噪,但使用者是無法控制聽誰說話,或何時關掉降噪的。

近日,華盛頓大學的一個團隊開發了一種 AI 系統,讓戴著耳機的使用者看著說話的人三到五秒鐘來「記錄」他們。

圖片

該系統名為「目標語音聽覺」(Target Speech Hearing),能驅動降噪耳機消除環境中的所有其他聲音,並實時播放已記錄的說話者的聲音。這樣一來,即使聽眾在嘈雜的地方走動並且不再面對說話者,也不會丟失重要資訊了。AI降噪耳機,可在嘈雜人群中單獨通話,看一眼鎖定目標
影片:https://www.youtube.com/watch?v=ArGKgodEUSo

對這種有點像碟中諜電影裡的黑科技,人們紛紛表示歡迎:
圖片
也有人表示,它或許能拯救很多婚姻:
圖片
華盛頓大學團隊於 5 月 14 日在檀香山舉行的 ACM CHI 計算機系統人因會議上展示了他們的研究成果,還獲得了大會的最佳 lunwen。概念驗證裝置的程式碼已經開源,可供他人使用。
圖片
  • 論文《Look Once to Hear: Target Speech Hearing with Noisy Examples》:https://programs.sigchi.org/chi/2024/program/content/147319
  • GitHub 連結:https://github.com/vb000/LookOnceToHear

要使用該系統,佩戴配有麥克風的常規降噪耳機的人只需要點選按鈕,同時將頭轉向正在說話的人。

然後,來自該說話者聲音的聲波會同時到達耳機兩側的麥克風,誤差幅度為 16 度。耳機將該訊號傳送到板載嵌入式計算機,其中的機器學習軟體會在那裡學習所需說話者的聲音模式。

系統會鎖定該說話者的聲音,並繼續將其播放給聽者,即使這對說話者不斷變化站位,四處走動也能保持跟隨。

隨著說話者不斷講話,AI 系統關注註冊聲音的能力會不斷提高,從而為系統提供更多的訓練資料。

作者表示,該研究的主要貢獻包括:

  • 實現了帶有噪聲示例的註冊網路。設計並比較了兩個不同的註冊網路 —— 波束形成器網路和知識蒸餾網路 —— 以使用短雙耳噪聲示例即可有效生成一個可捕捉目標說話人特徵的嵌入向量。
  • 實時嵌入式的目標語音聽覺網路。TSH 使用生成的嵌入,隨後使用 IoT 級別 CPU 上實時執行的最佳化網路提取目標語音。為此,研究者探索了各種模型和系統級最佳化,實現了在嵌入式裝置上實時執行的輕量級目標語音聽覺網路。
  • 推廣到現實世界的多徑、HRTF 和移動性。作者提出了一種訓練方法,僅使用合成資料,也可以保證系統不會被現實世界中未見過的目標干擾。
  • 此外,該研究明確使用多路徑進行訓練,以推廣到室內和室外環境。作者還引入了一種微調機制,可以解決移動源和聽眾頭部方向的突然變化(高達 90°/s 的角速度),並允許系統在註冊期間處理聽者頭部方向多至 18° 的誤差。
圖片
具有噪聲消除功能的端到端目標語音聽力系統。(b)一對 Sony WH-1000XM4 耳機在各個頻率下啟用和不啟用主動噪聲消除的噪聲隔離效能。低頻下較大的值是由於入耳式麥克風拾取了佩戴者的聲音。(c)模型推理時間的 CDF 圖,包括和不包括從輸出到輸入的快取緩衝區副本。

「如今,很多人把人工智慧等同於基於網路的聊天機器人,可以回答問題,」華盛頓大學保羅・G・艾倫電腦科學與工程學院教授、該研究主要作者 Shyam Gollakota 說道。「但在這個專案中,我們開發的 AI 可根據佩戴耳機的人的偏好來改變他們的聽覺感知。有了我們的裝置,即使身處嘈雜的環境中,有很多人在說話,你現在也可以清楚地聽到單個說話人的聲音。」

該團隊對 21 名志願者測試了該系統,受試者對已註冊說話者聲音清晰度的評分平均幾乎是未過濾音訊的兩倍。

據介紹,這項研究建立在華盛頓大學之前的「Semantic Hearing」研究的基礎上(論文《Semantic Hearing: Programming Acoustic Scenes with Binaural Hearables》),該研究允許使用者選擇他們想聽到的特定聲音類別(例如鳥叫聲或聲音),並消除環境中的其他聲音。

目前 TSH 系統一次只能註冊一個對話人,且只有在沒有其他巨大聲音從目標說話人相同方向傳來時才能註冊說話人。如果使用者對音質不滿意,則可以對說話者進行另一次註冊以提高畫質晰度。

該團隊表示,在未來這樣的系統可以擴充套件到耳塞和助聽器等更多裝置上。

參考內容:
https://www.washington.edu/news/2024/05/23/ai-headphones-noise-cancelling-target-speech-hearing/

相關文章