看圖聊天的騷操作,MIT開發精準到單詞的語音-影像配對系統

机器之心發表於2018-09-19

與當前 語音識別技術不同,該模型不需要人工轉錄和註釋其所訓練的例子,而是直接從原影像的錄音片段和目標中學習詞彙,然後建立它們之間的聯絡。

看圖聊天的騷操作,MIT開發精準到單詞的語音-影像配對系統

圖 1:模型的輸入:影像和語音波形的配對。

該模型現在只能識別幾百個單詞和物體型別,但研究人員希望這一「語音-目標」組合識別技術將來能夠為人類節省很多時間,同時為語音和影像識別技術開啟新的大門。

語音識別系統(如 Siri)需要轉錄幾千個小時的錄音。該系統使用這些資料學會匹配語音訊號與特定詞彙。如果有新詞加入詞典,這種方法就不好用了,而且系統必須重新訓練。

「我們想用一種更自然的方式做 語音識別,利用人類便於使用的額外訊號和資訊,但 機器學習演算法通常無法利用這些資訊。我們訓練模型的方法類似於讓一個小孩走過一個區域,然後描述他看到了什麼,」電腦科學和 人工智慧實驗室(CSAIL)及口語系統小組研究員 David Harwath 表示。Harwath 在一篇 ECCV 大會論文中描述了這一模型。

在該論文中,研究人員展示了他們的模型。他們使用的影像中有一個金髮碧眼的小女孩,穿著藍色連衣裙,背景是一座紅頂的白色燈塔。該模型學會了建立影像中的元素與「女孩」、「金髮」、「藍眼睛」、「藍色裙子」、「白色燈塔」和「紅色屋頂」之間的關聯。給出一段音訊描述,模型會根據描述顯示出影像中的每個目標。

看圖聊天的騷操作,MIT開發精準到單詞的語音-影像配對系統

圖 7:左邊顯示了兩幅影像及其語音訊號。每種顏色對應於從完全隨機 MISA 網路的兩個匹配圖中匯出的一個連通分量。右邊的掩碼顯示與每個語音片段相對應的片段。掩碼下方展示了從 ASR 轉錄中獲得的描述。請注意,這些詞從未用於學習,只是用於分析。

學習不同語言之間無需雙語註釋的翻譯是該技術一種有前景的應用。全世界大約有 7000 種口語,其中只有大約 100 種具有充足的 語音識別轉錄資料。如果模型從與影像中的目標對應的語言 A 中學習語音訊號,同時從對應於相同目標的語言 B 中學習語音訊號,該模型就能假設這兩種訊號(及對應的詞)可以互譯。

「這有可能是一種巴別魚式的機制,」Harwath 說,巴別魚是《銀河系漫遊指南》小說中虛構的一種生物耳機,它將不同的語言翻譯給佩戴者。該論文的合著者包括 CSAIL 的研究生 Adria Recasens、訪問生 Didac Suris、前研究員 Galen Chuang、電氣工程和電腦科學教授兼 MIT-IBM 沃森 人工智慧實驗室負責人 Antonio Torralba 及領導 CSAIL 口語系統小組的高階研究科學家 James Glass。

聲音-視覺關聯

這項研究基於早期由 Harwath、Glass、Torralba 開發的將語音與主題相關的影像關聯起來的模型。在早期研究中,他們從眾包的 Mechanical Turk 平臺的 分類資料庫提取場景影像。然後他們讓人們按照向嬰兒敘述的方式用大約 10 秒的時間來描述影像。他們編譯了超過 20 萬對影像和音訊描述,涉及數百個不同的類別,例如海灘、購物廣場、城市街道和房間等。

看圖聊天的騷操作,MIT開發精準到單詞的語音-影像配對系統

場景識別資料庫:http://places.csail.mit.edu/

然後他們設計了一個由兩個獨立的 卷積神經網路構成的模型。一個處理影像,另一個處理聲譜(音訊訊號隨時間變化的視覺化表示)。模型的最頂層計算兩個網路的輸出並對語音模式和影像資料進行 對映

例如,研究人員將描述 A 和影像 A(正確配對)饋送給模型。然後他們再饋送一個隨機描述 B 和影像 A(錯誤配對)。在比較了影像 A 的數千個錯誤配對之後,模型學習到了對應影像 A 的語音訊號,並關聯描述中的單詞訊號。如 2016 年的這篇論文所述,模型學習選取對應單詞「水」的訊號,並檢索包含水的影像。「但它並沒有提供用特定單詞檢索特定影像畫素塊的功能。」Harwath 說。

相關連結:http://news.mit.edu/2016/recorded-speech-images-automated-speech-recognition-1206

製作匹配圖

在這篇新論文中,研究人員修改了模型,將特定單詞與特定畫素塊相關聯。他們在同一個資料庫上訓練了該模型,但影像-描述為 40 萬對。他們隨機拿出了 1000 對用來進行測試。

在訓練中,模型同樣會得到正確和錯誤的影像和描述配對。但這一次,影像分析 CNN 將影像分成了由畫素塊組成的網格。音訊分析 CNN 將聲譜圖分成幾段,比如一秒捕捉一兩個單詞。

對於正確的影像和描述對,模型將網格的第一個單元與第一段音訊匹配,然後將同一單元與第二段音訊匹配,以此類推,一直貫穿每個網格單元,跨越所有時間段。對於每個單元和音訊片段,它提供相似性分數,這取決於訊號與目標的匹配程度。

問題是,在訓練過程中,模型無法獲取語音和影像之間的任何真實對齊資訊。Harwath 說,「該論文的最大貢獻是,通過簡單地教導網路哪些影像和描述屬於同一組,哪些對不屬於同一組,證明了這些跨模態(視-聽)資訊可以自動推斷對齊。」

研究人員將語音說明的波形與影像畫素之間的這種自動學習關聯稱為「匹配圖」。經過成千上萬對影像-描述的訓練,網路將這些對齊縮小到代表匹配圖中特定目標的特定單詞。

看圖聊天的騷操作,MIT開發精準到單詞的語音-影像配對系統

圖 3:聲音-視覺匹配圖模型架構(左),匹配圖輸出示例(右),顯示時空相似性的三維密度。

看圖聊天的騷操作,MIT開發精準到單詞的語音-影像配對系統

圖 4:幾個詞彙/目標配對的語音提示定點陣圖。

Harwath 還表示,「這有點像大爆炸,物質被分解,然後合併成行星和恆星。預測開始分散開來,但是經過訓練後,它們會匯聚成對,代表語音和視覺目標之間有意義的語義基礎。」

卡內基梅隆大學語言技術研究所的副教授 Florian Metze 說,「看到神經方法現在也能夠將影像元素與音訊片段聯絡起來,而且不需要文字作為中介,真是令人興奮。與人類的學習不同,這種方法完全基於相關性,沒有任何反饋,但它可能幫助我們理解共享表徵是如何由聽覺和視覺線索形成的。」

論文:Jointly Discovering Visual Objects and Spoken Words from Raw Sensory Input

看圖聊天的騷操作,MIT開發精準到單詞的語音-影像配對系統

論文連結:http://openaccess.thecvf.com/content_ECCV_2018/papers/David_Harwath_Jointly_Discovering_Visual_ECCV_2018_paper.pdf 

參考連結:http://news.mit.edu/machine-learning-image-object-recognition-0918

相關文章