“假聲音”也來了,手把手教你造一隻柯南的蝴蝶結變聲器

大資料文摘發表於2019-03-01

“假聲音”也來了,手把手教你造一隻柯南的蝴蝶結變聲器

大資料文摘出品

作者:蔣寶尚、魏子敏

最近,一隻“總統洋蔥新聞”在Youtube和Reddit上引發了一波討論。

影片中,川普用它一貫懶散的聲音播報了一組耐人尋味的新聞——“資料雨“:

民主黨人把太多資料存在運上,冷卻後成為液體,最後透過降雨落下來,對地球生態造成巨大傷害。想要避免這種致命液體,你需要躲在屋裡,不要出門。

“假聲音”也來了,手把手教你造一隻柯南的蝴蝶結變聲器

影片地址:

雖然內容荒唐,但整個影片中的聲音效果非常真實,以至於不少網友在捧腹大笑的同時也開始調侃,“是不是很快就能接到川普給我打的廣告電話了。”

再加上近期,“假臉”技術大肆盛行,與之配套的“假聲音”上線後,更能生成無縫銜接的假影片,讓假戲做足,真假難辨。

“假聲音”也來了,手把手教你造一隻柯南的蝴蝶結變聲器

靠換臉技術”出演”《射鵰英雄傳》的楊冪

一鍵生成“假聲音”

關於變音技術,江湖上確實流傳了幾種,不過加持了機器學習和深度學習,這種技術不再是簡單的語音濾波器。

跟”一鍵變臉“的deepfake軟體一樣,研究者們也開發了讓不懂技術的同學直接易上手的變聲軟體。

剛剛聽到的這個聲音就來自這樣一個網站Modulate.ai。麻省理工科技評論的資深編輯Will Knight用其輕易就合成了不同的聲音。

建立這個網站的三個小夥伴,有兩個來自麻省理工,還有一個來自加州大學洛杉磯分校。對於遊客,這個網站給出了幾個適用的聲音,對於想定製名人聲音的使用者,還得透過官網給出的聯絡方式聯絡他們。

據網站介紹,合成的聲音是是採用神經網路訓練來訓練,具有低延遲性以及實時性。

文摘菌試了一把,在網站的提供的介面處錄下聲音,選擇你想要的“性別”或者“名人”,網站會很快生成你想要的聲音。

“假聲音”也來了,手把手教你造一隻柯南的蝴蝶結變聲器

網站地址:

此外,百度在18年的3月份曾經宣佈,百度開發的新 AI 演算法Deep Voice可以透過3.7秒鐘的錄音樣本資料就能完美的克隆出一個人的聲音。Deep Voice是百度AI研究院一個由深度神經網路構建的高質量語音轉(TTS )系統。除了利用少量樣本克隆聲音外,系統還能將女性聲音轉變成男性,英式聲音變成美式。

語音轉語音的具體過程

聲音的直接轉換是比較複雜的,因為一個人的“聲音”不僅是由聲帶定義,聲帶只是聲音的頻率,具體來說,還取決於口音和說話風格。另外,音高會受胸腔的物理特性等的影響。這些影響作用在不同的層面上,發音決定了單詞和短語是如何在幾秒鐘或幾十秒內被識別出來。

當開始合成語音時,技術人員主要會考慮三個因素。

首先是生物因素,這些因素人們難以自行改變。第二,構建聲音認同概念,即任何在語言下明顯表現出來的同一性。有了這個定義,就可以很好的建立語音識別模型。第三,建立獨立於上下文處理語音片段的模型,這個模型的好處是它比神經網路中所要處理的序列模型要簡單的多,並且可以有效的降低語音處理延遲。

總的來說,所要建立的系統是:把一個說話人的聲音的頻率分佈(frequency profile)換成另一個聲音的頻率分佈,同時保持他們講話的其餘屬性不變。

所以,自然的將系統分為兩個部分:1、語音識別 2、語音轉換。這兩個部分最主要的區別是,是從語音轉換到文字,還是從文字轉換到語音。如果這兩個部分獨立執行,那麼整個系丟失“情感模仿”。

語音轉文字和文字轉語音同屬一個極端的情況。語音轉換必須使用媒介,由於系統只能給出語音,並且嘗試在輸出中再現輸入的語句。

透過限制某時段透過系統的資訊量,系統學習識別功能(identity function),這是系統的瓶頸。在從語音到文字到語音的情況下,瓶頸在於對輸入的語音進行文字表示,因此係統必須進行一般性學習,才能根據文字生成可靠的語音。

從透過機器學習構建這樣一個系統的角度來看,出現瓶頸自然有其的道理。機器學習,特別是深度學習,當被訓練來完成一項特定的任務時,一直表現得非常好。但是瓶頸自動編碼器沒有接受過語音轉換的訓練,他們接受的是自動編碼訓練。

破解瓶頸的主要方法是調整資訊瓶頸的頻寬。例如文字中間表示,會丟失太多資訊。文字可以使用情感標籤或其他符號進行註釋,但這些需要對監督資料著重進行手動註釋。

具體的步驟:

首先嚐試在兩種不同的損失函式上訓練說話人識別符號( identifie):真實音訊匹配揚聲器配置檔案和生成音訊,以及真實音訊匹配揚聲器配置檔案和真實音訊的揚聲器配置檔案。使得說話人的識別符號“尋找”說話人身份,否則它只能關注於檢測生成的音訊。在實踐中,發現只有對兩個損失函式中的第一個函式的訓練才能起到同樣的作用:說話人識別符號首先學會區分真實的音訊和生成的音訊,然後隨著生成器開始產生更高質量的輸出,自然進化到使用說話人配置檔案。

在神經網路的輸入層對說話人識別符號的大小設定了懲罰。懲罰的大小是一個可調整的引數,透過訓練效果進步明顯與否,可以判斷最優引數。對於真實和假音訊,我們最好的訓練傾向於快速收斂0.55的交叉熵,然後在大多數訓練過程中慢慢爬過0.6。

然後繼續改進系統繫結構,透過直接最佳化語音轉換目標,透過一個新的說話人識別符號,能夠產生與目標聲音緊密匹配的合成語音,同時保留了通常由瓶頸架構丟失的表達性。

AI合成大事件

透過AI技術合成圖片以及影片早已不新鮮,要說最著名的合成案例可能就是下面這個。

“假聲音”也來了,手把手教你造一隻柯南的蝴蝶結變聲器

這項技術由華盛頓大學SUPASORN SUWAJANAKORN等三人共同發明,他們坦言,之所以選用奧巴馬做研究範例,是因為他的高畫質影片資源獲取非常容易,並且不受版許可權制。

因此,研究小組用神經網路分析了數百萬幀的影片,來確定奧巴馬的面部表情如何變化。開口說話需要整個面部器官的協調,所以研究人員不僅分析了口型變化,還包括他的嘴唇、牙齒和下巴周圍的皺紋,甚至還包括脖子與衣領。

“假聲音”也來了,手把手教你造一隻柯南的蝴蝶結變聲器

具體的操作過程是:研究人員採集了音訊片段(原始音訊檔案),再把口型和新的音訊檔案剪輯匹配,再嫁接到新影片。

國內的科技公司也在這一領域各有千秋。拿導航用的語音來說,科大訊飛的董事長劉慶峰在2018世界機器人大會上表示,高德地圖導航上面的林志玲、郭德綱的聲音都是合成,其實都不是本人原音,而是由他們的機器來完成合成的,壓根就不是本人錄的。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562039/viewspace-2637297/,如需轉載,請註明出處,否則將追究法律責任。

相關文章