不戴眼鏡聽不清?Google用視覺訊號分離語音 | 附論文
霧中之慄 發自 凹非寺
量子位 出品 | 公眾號 QbitAI
△ 精神的力量
人類非常善於在嘈雜的環境中,集中注意力聽某一個人說的話,從精神上“遮蔽”一切其他聲音。這種現象便是“雞尾酒會效應”,我們與生俱來。
不過,對於計算機來說,要把一個音訊訊號分割成多個不同的語音來源,依然有些棘手的問題需要解決。當許多人的語音交疊在一起的時候,AI時常措手不及。
谷歌團隊建立了一個深度學習視聽模型,用來把某個人的語音從一段混合聲音裡面提取出來。演算法對視訊做一些奇妙的改動,就可以讓觀眾需要的聲音變得格外顯著,其他聲音則被削弱。
△ 不戴眼鏡,AI也一樣
這項技術的獨到之處,就是把聽覺和視覺訊號結合起來用,而不單單靠聲波來分離視訊中的語音。直觀來看,以嘴上的動作為例,人的口型和語音相互對應。這一點會幫助AI判斷,哪些聲音是哪個人發出的。
視聽語音分離模型
要生成訓練樣例,團隊先蒐集了100,000條高清視訊,全部是油管上的講座和演講。第二步,是把語音單純 (比如,無音樂、無觀眾、無其他演講者) 、且影像中只有一人出現的視訊篩選出來。這樣,就得到了大約2,000小時純純無雜質的視訊。
有了這些資料,小夥伴們就開始對一個基於多流卷積神經網路 (CNN) 的模型進行訓練。人工合成一些嘈雜的“雞尾酒會”給AI欣賞,目標是讓它在酒會裡,把每個人的音訊流分離開來。
△ 感覺有人,在背後截我圖
視訊裡,演講者的大頭貼被一幀一幀地截下,計算機用它們的縮圖來提取面部特徵。然神經網路食量非凡,它要吃的不止這些面部特徵。加上頻譜圖形式呈現的音軌,才是神經網路美好的晚餐。
在訓練過程中,AI學會了編碼視覺和聽覺訊號,並且能夠把它們組合成一種特殊的視聽表現形式。在此基礎上,AI還要為每個演講者輸出一個時頻掩膜 (time-frequency mask) 。
把這些掩膜與輸入的噪音訊譜相乘,再轉換回時域波形 (time-domain waveform) ,就能獲得每個演講者獨立又清澈的語音訊號了。
訓練成果秀
團隊用單音軌的普通視訊來做實驗。觀眾要做的很簡單,想要聽到哪個人的聲音,就把他/她的臉從視訊裡選出來,當然讓計算機根據場景自動選擇也是可以的。
△ 安能辨我是雄雌
除了被選中的人,其他人的聲音都可以被完全壓制,或者被削弱到理想的程度。
在多人發聲的場景下,視覺訊號除了有效提升語音分離的質量,還可以把分離之後的音軌和視訊裡的人物對應起來。
△ 兩個劈柴一起秀
為了突顯視覺資訊的作用,團隊從劈柴小哥哥 (谷歌CEO Sundar Pichai) 的同一條演講視訊裡擷取了兩個不同的段落,左右拼接成一段視訊。如果只靠音訊,便很難判斷是左邊的劈柴還是右邊的劈柴在說話。
不,是你的字幕
語音識別的預處理,以及視訊字幕的自動生成中,也能用上這個方法。遇到相互交疊的聲音,視聽模型或許可以解決,以往語音分離系統遇到的難題。
有翻牆技能的大家,可以使用油管的字幕功能 (cc) ,對比整容前和整容後的視訊,看看字幕有沒有更準一些。
△ 剛才誰在說話
這是論文的傳送門:
https://arxiv.org/pdf/1804.03619.pdf
— 完 —
活動報名
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話介面,回覆“招聘”兩個字。
量子位 QbitAI · 頭條號簽約作者
վ'ᴗ' ի 追蹤AI技術和產品新動態
相關文章
- 2023年美國13歲以上聽眾聽口語音訊地理分佈(附原資料表) 音訊
- [OpenGL]未來視覺5-抖音濾鏡視覺
- 微信下載錄音檔案(音軌分離 ffmpeg視訊合成)
- Android音訊視覺化操作Android音訊視覺化
- 阿里巴巴論文提出針對影視作品的語音情感識別資訊融合框架阿里框架
- 15分鐘,不,用模板做資料視覺化只需5分鐘視覺化
- .Net開發的音訊分離桌面應用,可用於提取背景音樂音訊
- mkvtoolnix 分離影片音軌 把英語的音軌分離出來 - 軟體推薦
- ICML:2019論文接收結果視覺化視覺化
- 2024年6月計算機視覺論文推薦:擴散模型、視覺語言模型、影片生成等計算機視覺模型
- AI學會了視覺推理,“腦補”看不清的物體 | 李佳李飛飛等的CVPR論文AI視覺
- 全球計算機視覺頂會CVPR 2019論文出爐:騰訊優圖25篇論文入選計算機視覺
- 眼鏡選款新方法,用AR+Scene技術實現3D虛擬試戴3D
- 2023年美國13歲以上聽眾在家聽口語音訊節目比例(附原資料表) 音訊
- 2023年美國13歲以上聽眾使用裝置聽口語音訊比例(附原資料表) 音訊
- 2023年美國13歲以上聽眾在車裡聽口語音訊比例(附原資料表) 音訊
- 2023年美國13歲以上聽眾在家聽口語音訊內容比例(附原資料表) 音訊
- Premiere Pro 2022離線語音轉文字教程,圖文!REM
- AudioContext+canvas實現音訊視覺化ContextCanvas音訊視覺化
- 音訊錄製及視覺化處理音訊視覺化
- 《The Google File System》論文研讀Go
- Google Illuminate革新學習論文Go
- 2023年美國13歲以上聽眾在工作場所聽口語音訊比例(附原資料表) 音訊
- 2023年美國13歲以上聽眾在家使用裝置聽口語音訊比例(附原資料表) 音訊
- CVPR 2019審稿滿分論文:中國博士提出融合CV與NLP的視覺語言導航新方法視覺
- 視覺語言模型導論:這篇論文能成為你進軍VLM的第一步視覺模型
- 業界 | 深度學習也能實現「雞尾酒會效應」:谷歌提出新型音訊-視覺語音分離模型深度學習谷歌音訊視覺模型
- INTERSPEECH2020 語音情感分析論文之我見
- 音訊訊號表徵音訊
- [C#] 使用 NAudio 實現音訊視覺化C#音訊視覺化
- 2023年美國13歲以上聽眾在車裡聽口語音訊內容比例(附原資料表) 音訊
- Google分散式三篇論文--MapReduceGo分散式
- 2024年4月計算機視覺論文推薦計算機視覺
- 2020年十大計算機視覺論文 - kdnuggets計算機視覺
- MIT又出新玩法,利用AI可輕鬆分離視訊中的樂器聲音MITAI
- 論文筆記:語音情感識別(五)語音特徵集之eGeMAPS,ComParE,09IS,BoAW筆記特徵
- 2023年美國13歲以上聽眾在工作場所聽口語音訊內容比例(附原資料表) 音訊
- 2023年美國13歲以上聽眾工作場所使用裝置聽口語音訊比例(附原資料表) 音訊