AI降噪軟體的出現,不僅僅要終結手機雙麥克風時代

naojiti發表於2018-12-12

從諾基亞到iPhone X,手機在這些年產生了天翻地覆的變化。按鍵消失了、邊框消失了、連耳機孔都消失了,螢幕越來越大、攝像頭也越來越清晰……

不過人們很難感知到的一點變化是,通話中的噪聲變得越來越小了。在機場、火車站一類地方嘈雜的背景音中,清晰地聽到彼此的聲音並不是一件容易的事,麥克風會把環境音一起收集起來,接聽時會受到巨大的干擾。

AI降噪軟體的出現,不僅僅要終結手機雙麥克風時代


為了解決這個問題,手機廠商做出了很大努力。目前主流的解決方案是雙麥克風,一個放在靠近嘴巴的地方收集人聲,一個放在頂端或背部收集環境音,再通過演算法將人聲從背景音中剝離出來,傳送到手機的另一端。

但雙麥克風+演算法真的是主動降噪最好的選擇嗎?

兩個麥克風,仍然解決不了一個老問題

顯然不是這樣的。

首先雙麥克風降噪本身就有一定的侷限性,因為演算法要在手機終端執行,所以規模不能太大,實現效果也相對有限。具體表現為,有時使用者不再說話時,靠近嘴部的麥克風收集的其實還是環境噪音,對於人聲剝離的計算會產生一種斷斷續續的狀況。而且當使用者使用藍芽耳機或有線耳機通話時,手機端的雙麥克風降噪演算法往往又會失效。

同時雙麥克風在工業設計上也會造成很多阻礙。兩個麥克風會讓聲學音訊路徑的設計更加複雜,在ODM和OEM角度都會增加生產設計成本。尤其在如今手機越來越追求屏佔比和輕巧的今天,元件自然是越少越好。

AI降噪軟體的出現,不僅僅要終結手機雙麥克風時代


而且在一些使用場合中,用來收集人聲的麥克風不一定會被放在人們的嘴邊。例如在錄音,或者應用一些App上的對講機功能時,人習慣將手機放置在桌子上,或者拿在舉例嘴略遠地方。這時兩個麥克風很難接收到不同的聲音,讓演算法起不到作用。

如果腦洞開的再大一點,未來我們的手機不一定還是如今的平板形狀。也許是能捲起來的曲面屏手機,也許是眼鏡形態,未來通話的互動方式,也不一定是將手機的一部分放在嘴邊收聲。

總之,這種雙麥克風降噪模式絕不是主動降噪最終的解決方案。

並不新鮮的DNN降噪,怎樣才能落實應用?

其實早在2015年,中國科技大學語音與語言資訊處理國家工程實驗室就創作了關於通過深度神經網路+單麥克風實現主動降噪的論文。具體實現方式是,建立含有噪聲+人聲和純淨人聲的資料集,以深度神經網路為架構訓練出分離噪聲和人聲的“語音增強迴歸”演算法。

在初步試驗後,這種演算法的結果還不錯。從訓練成本來看,即使用人工合成的資料,演算法結果仍然表現優秀。也就是說演算法的應用者不需要面對到現實世界收集資料,可能會侵犯隱私的難題。從應用上來說,這一演算法的降噪能力並不比雙麥克模式差,甚至還能克服雙麥克風克服不不了的間斷噪聲問題,有時候人們在走路或跑動時接電話會形成偶爾出現的間斷噪聲,以往的雙麥克風模式很難捕捉到這種噪聲,但語音增強迴歸演算法就能將人聲從中剝離開來。

不過這種演算法在這幾年間都沒有得到很好的應用,原因很簡單,深度神經網路模型往往體量較大,很難實現在終端上執行,如果在雲端執行,又難免會因為延遲狀況不能在實時通話中應用,要知道人類對於交談時延遲的忍耐最多隻有200毫秒。可要是用在語音的後期處理上,好像也並沒有什麼意義,只要換個收聲好一點的話筒就能解決問題,還能保證音質還原。

不過隨著這兩年以來終端算力的增長,以及對AI演算法的不斷優化,在終端部署這類模型已經逐漸成為可能。例如一些藍芽耳機已經部署上了可以在本地執行的RNNoise演算法,通過簡單的運算來分離單一收音來源的噪聲。

除了手機,

AI降噪還有更廣闊的舞臺

這種本地AI降噪技術的應用舞臺,不僅僅在手機一種產品上。除了手機通話之外,我們其實無處不受通話噪音的干擾,尤其當語音互動應用的越來也多時,這些問題也越來越嚴重。

比如在遊戲直播時,主播的聲音可能會被外放的遊戲聲音干擾,必須高價購買專用音效卡和麥克風才能和粉絲暢快的溝通。又比如車載場景下的語音互動,又有可能被駕車時嘈雜的背景音和導航的聲音干擾,最後逼得一些車聯網方案將麥克風陣列裝置在了方向盤上。以及這幾年很流行的智慧音響,為了防止家庭環境中的噪音干擾,需要在麥克風陣列上增加很多成本,像是蘋果的HomePod就足足安裝了6個麥克風陣列……

AI降噪軟體的出現,不僅僅要終結手機雙麥克風時代


但這一切都在被語音增強迴歸演算法和終端計算所改變。

就像最近,一家名為Krisp的創業企業集合了相關演算法推出了一款應用於PC端的軟體,利用PC端本地算力來執行模型,降低PC端收音的噪音。不需要昂貴的音效卡和外接麥克風,和Skype等等軟體也不會產生衝突。同時Krisp還計劃推出針對於遊戲的定製版本,專門應對遊戲語音、遊戲直播時被遊戲背景音樂困難的問題。

目前這款軟體在英偉達的GPU、英特爾的CPU/GNA和ARM的晶片上都能執行,和高通的合作也在洽談之中。也就是說如今的PC版本只是開始,未來只要能應用這些晶片的終端,都可以應用上Krisp的軟體,實現在終端的實時主動噪音抑制。

演算法路徑逐漸清晰,軟體市場會迎來下一個爆發期嗎?

因此Krisp也展示出了充分的市場前景,受到了資本的青睞,在首輪融資中就融到了150萬美元。Krisp的出現也帶出了一個問題:隨著終端算力的提升和小規模AI演算法的發展,這種軟體替代硬體的模式是否會迎來上一個商業上的小爆發?

在終端功能的實現上,永遠都有演算法和硬體兩條路。降噪可以用雙麥克風解決,也可以用AI演算法解決;拍照效果可以用雙攝提升,也可以用單目攝像頭+演算法來提升;電量不足可以增大電池容量,也可以用資源排程演算法解決……

雖然以往我們都是通過硬體上的研發來解決,但這其中也存在不小的問題:硬體的頻繁更新會給廠商帶來巨大的生產和研發成本,這些成本轉嫁到消費者身上時,會導致高階和低端機型在硬體上差距太大,其實還會給開發者帶來負擔。而且現在硬體追求輕薄小巧,更加大了硬體創新的難度。

AI降噪軟體的出現,不僅僅要終結手機雙麥克風時代


但今天我們有了用演算法解決問題的條件,事情就會產生很多變化。

首先很多原本在貴价產品上才有的功能,會出現“平價替代”方案。例如此前iPhone X用3D結構光實現的Animoji,如今在快手一類的產品上也可以用AI演算法實現類似功能。

同時演算法的更新迭代比硬體更加敏捷高效,使用者體驗可以得到極大的提升。一些創新功能可以更快速的來到使用者面前並得到反饋。

最後,終端產品在研發成本和產品形態上都有了更廣闊的想象空間。尤其是未來5G應用後,演算法模型也許也不再需要拘泥於終端算力,或許會徹底改變我們使用終端產品的方式。

如此看來,或許幾年之後軟體市場會迎來自移動應用之後的又一次發展機會,起跑線已經劃好,就待哨聲吹響了。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561483/viewspace-2285072/,如需轉載,請註明出處,否則將追究法律責任。

相關文章