看圖聊天的騷操作，MIT開發精準到單詞的語音-影像配對系統

机器之心發表於2018-09-19

原文網址 : https://www.jiqizhixin.com/articles/2018-09-19-8

與當前語音識別技術不同，該模型不需要人工轉錄和註釋其所訓練的例子，而是直接從原影像的錄音片段和目標中學習詞彙，然後建立它們之間的聯絡。

圖 1：模型的輸入：影像和語音波形的配對。

該模型現在只能識別幾百個單詞和物體型別，但研究人員希望這一「語音-目標」組合識別技術將來能夠為人類節省很多時間，同時為語音和影像識別技術開啟新的大門。

語音識別系統（如 Siri）需要轉錄幾千個小時的錄音。該系統使用這些資料學會匹配語音訊號與特定詞彙。如果有新詞加入詞典，這種方法就不好用了，而且系統必須重新訓練。

「我們想用一種更自然的方式做語音識別，利用人類便於使用的額外訊號和資訊，但機器學習演算法通常無法利用這些資訊。我們訓練模型的方法類似於讓一個小孩走過一個區域，然後描述他看到了什麼，」電腦科學和人工智慧實驗室（CSAIL）及口語系統小組研究員 David Harwath 表示。Harwath 在一篇 ECCV 大會論文中描述了這一模型。

在該論文中，研究人員展示了他們的模型。他們使用的影像中有一個金髮碧眼的小女孩，穿著藍色連衣裙，背景是一座紅頂的白色燈塔。該模型學會了建立影像中的元素與「女孩」、「金髮」、「藍眼睛」、「藍色裙子」、「白色燈塔」和「紅色屋頂」之間的關聯。給出一段音訊描述，模型會根據描述顯示出影像中的每個目標。

看圖聊天的騷操作，MIT開發精準到單詞的語音-影像配對系統

圖 7：左邊顯示了兩幅影像及其語音訊號。每種顏色對應於從完全隨機 MISA 網路的兩個匹配圖中匯出的一個連通分量。右邊的掩碼顯示與每個語音片段相對應的片段。掩碼下方展示了從 ASR 轉錄中獲得的描述。請注意，這些詞從未用於學習，只是用於分析。

學習不同語言之間無需雙語註釋的翻譯是該技術一種有前景的應用。全世界大約有 7000 種口語，其中只有大約 100 種具有充足的語音識別轉錄資料。如果模型從與影像中的目標對應的語言 A 中學習語音訊號，同時從對應於相同目標的語言 B 中學習語音訊號，該模型就能假設這兩種訊號（及對應的詞）可以互譯。

「這有可能是一種巴別魚式的機制，」Harwath 說，巴別魚是《銀河系漫遊指南》小說中虛構的一種生物耳機，它將不同的語言翻譯給佩戴者。該論文的合著者包括 CSAIL 的研究生 Adria Recasens、訪問生 Didac Suris、前研究員 Galen Chuang、電氣工程和電腦科學教授兼 MIT-IBM 沃森人工智慧實驗室負責人 Antonio Torralba 及領導 CSAIL 口語系統小組的高階研究科學家 James Glass。

聲音-視覺關聯

這項研究基於早期由 Harwath、Glass、Torralba 開發的將語音與主題相關的影像關聯起來的模型。在早期研究中，他們從眾包的 Mechanical Turk 平臺的分類資料庫提取場景影像。然後他們讓人們按照向嬰兒敘述的方式用大約 10 秒的時間來描述影像。他們編譯了超過 20 萬對影像和音訊描述，涉及數百個不同的類別，例如海灘、購物廣場、城市街道和房間等。

看圖聊天的騷操作，MIT開發精準到單詞的語音-影像配對系統

場景識別資料庫：http://places.csail.mit.edu/

然後他們設計了一個由兩個獨立的卷積神經網路構成的模型。一個處理影像，另一個處理聲譜（音訊訊號隨時間變化的視覺化表示）。模型的最頂層計算兩個網路的輸出並對語音模式和影像資料進行對映。

例如，研究人員將描述 A 和影像 A（正確配對）饋送給模型。然後他們再饋送一個隨機描述 B 和影像 A（錯誤配對）。在比較了影像 A 的數千個錯誤配對之後，模型學習到了對應影像 A 的語音訊號，並關聯描述中的單詞訊號。如 2016 年的這篇論文所述，模型學習選取對應單詞「水」的訊號，並檢索包含水的影像。「但它並沒有提供用特定單詞檢索特定影像畫素塊的功能。」Harwath 說。

相關連結：http://news.mit.edu/2016/recorded-speech-images-automated-speech-recognition-1206

製作匹配圖

在這篇新論文中，研究人員修改了模型，將特定單詞與特定畫素塊相關聯。他們在同一個資料庫上訓練了該模型，但影像-描述為 40 萬對。他們隨機拿出了 1000 對用來進行測試。

在訓練中，模型同樣會得到正確和錯誤的影像和描述配對。但這一次，影像分析 CNN 將影像分成了由畫素塊組成的網格。音訊分析 CNN 將聲譜圖分成幾段，比如一秒捕捉一兩個單詞。

對於正確的影像和描述對，模型將網格的第一個單元與第一段音訊匹配，然後將同一單元與第二段音訊匹配，以此類推，一直貫穿每個網格單元，跨越所有時間段。對於每個單元和音訊片段，它提供相似性分數，這取決於訊號與目標的匹配程度。

問題是，在訓練過程中，模型無法獲取語音和影像之間的任何真實對齊資訊。Harwath 說，「該論文的最大貢獻是，通過簡單地教導網路哪些影像和描述屬於同一組，哪些對不屬於同一組，證明了這些跨模態（視-聽）資訊可以自動推斷對齊。」

研究人員將語音說明的波形與影像畫素之間的這種自動學習關聯稱為「匹配圖」。經過成千上萬對影像-描述的訓練，網路將這些對齊縮小到代表匹配圖中特定目標的特定單詞。

看圖聊天的騷操作，MIT開發精準到單詞的語音-影像配對系統

圖 3：聲音-視覺匹配圖模型架構（左），匹配圖輸出示例（右），顯示時空相似性的三維密度。

看圖聊天的騷操作，MIT開發精準到單詞的語音-影像配對系統

圖 4：幾個詞彙/目標配對的語音提示定點陣圖。

Harwath 還表示，「這有點像大爆炸，物質被分解，然後合併成行星和恆星。預測開始分散開來，但是經過訓練後，它們會匯聚成對，代表語音和視覺目標之間有意義的語義基礎。」

卡內基梅隆大學語言技術研究所的副教授 Florian Metze 說，「看到神經方法現在也能夠將影像元素與音訊片段聯絡起來，而且不需要文字作為中介，真是令人興奮。與人類的學習不同，這種方法完全基於相關性，沒有任何反饋，但它可能幫助我們理解共享表徵是如何由聽覺和視覺線索形成的。」

論文：Jointly Discovering Visual Objects and Spoken Words from Raw Sensory Input

看圖聊天的騷操作，MIT開發精準到單詞的語音-影像配對系統

論文連結：http://openaccess.thecvf.com/content_ECCV_2018/papers/David_Harwath_Jointly_Discovering_Visual_ECCV_2018_paper.pdf

參考連結：http://news.mit.edu/machine-learning-image-object-recognition-0918

Kaldi搭建語音識別系統—發音詞典相關檔案準備
2022-05-17
李飛飛團隊最新論文：如何對影像中的實體精準“配對”？
2019-02-02
語音直播系統原始碼開發語音直播系統部署搭建
2020-05-16
原始碼
語音聊天系統原始碼有哪些特色功能
2020-05-27
原始碼
語音聊天系統原始碼如何才能快速搭建
2020-05-28
原始碼
語音直播系統開發，一套完整的語音直播系統原始碼必有的特色功能
2019-11-22
原始碼
ChatGPT人工智慧語言聊天系統設計開發及技術對接
2023-03-27
ChatGPT人工智慧
IM即時通訊聊天社交APP VX 聊天語音視訊系統
2022-01-13
APP
Android 截圖的各種騷操作
2019-05-22
Android
簡單介紹Pygame 精準檢測影像碰撞的問題
2022-07-11
GAM
基於準則匹配的影像對準
2023-01-02
即時聊天社交系統開發/聊天交友/ChatGPT社交聊天
2023-04-23
ChatGPT
互資訊與相關性的影像配準
2023-12-06
天貓精靈語音技能單輪對話表示式的引數定義
2022-05-12
有沒有精準的影像匹配方法？
2020-09-06
別進來看！Composer騷操作2.0
2022-04-24
開發多人純語音聊天直播交友平臺的技術難點分析
2020-01-06
5 款不錯的開源語音識別/語音文字轉換系統
2019-06-22
IM 聊天教程:傳送圖片 / 影片 / 語音 / 表情
2020-05-19
「IDEA外掛精選」安利一個IDEA騷操作:一鍵生成方法的序列圖
2020-10-26
Idea
量化跟單系統對沖交易策略Python系統程式設計開發技術語言
2023-03-30
Python程式設計
谷歌承認在偷錄使用者日常對話！為了語音識別系統的開發
2019-07-18
谷歌
如何將MCU與FPGA進行配對達到提高系統效率的目的？
2021-03-02
FPGA
make:migration 的騷操作
2019-03-23
&引用上的騷操作
2020-10-19
國產Linux音影片聊天程式開發遇到的坑及解決：相互聽不到對方聲音？
2024-05-20
Linux
reCAPTCHA系統被破！語音驗證準確度85%
2019-01-03
APT
直播帶貨系統開發：如何才能達到高標準的市場水平
2020-11-11
Laravel 8+ LayIM 3.8 + GatewayWorker 開發的網頁聊天系統
2021-02-15
LaravelGateway網頁
IM 聊天教程:傳送圖片 / 視訊 / 語音 / 表情
2020-05-19
windows10系統下進行藍芽配對的方法【圖文教程】
2019-01-17
Windows藍芽
ChatGPT社交聊天/即時聊天社交交友系統技術開發/聊天交友
2023-04-23
ChatGPT
論減少程式碼中return語句的騷操作
2020-10-17
一對一聊天軟體原始碼，提升系統效能的圖片載入方式
2024-05-25
原始碼
語音交友app開發許可權系統，不容錯過的設計方案
2021-11-03
APP
使用魔搭開發自己的語音AI：從入門到精通
2022-12-01
AI
織物影像的配準和拼接演算法的MATLAB模擬,對比SIFT,SURF以及KAZE
2024-10-08
演算法Matlab
語音派對系統原始碼的功能已突破現有社交格局
2021-02-04
原始碼

看圖聊天的騷操作，MIT開發精準到單詞的語音-影像配對系統

相關文章