工程設計+演算法規模化真的是AI突破嗎?DeepMind脣讀系統ICLR遭拒

機器之心發表於2019-02-27

選自 OpenReview,機器之心編譯。

上週,ICLR 2019 接收論文名單放出,令人驚訝的是 DeepMind & Google 的論文《LARGE-SCALE VISUAL SPEECH RECOGNITION》未被接收。這篇論文的評審得分為:3,4,9,可謂是兩極分化了。評審們認為即使它在工程上和資料上都非常突出,但大模型加上大資料會提升效能是共識,這類改進不能被看作是貢獻。

這種情況不禁讓人想起 2016 年引起熱議的 LipNet 論文(牛津大學人工智慧實驗室、谷歌 DeepMind 和加拿大高等研究院 (CIFAR) 合作的研究),這篇論文同樣與 ICLR 2017 失之交臂。此外,這兩篇論文有三位共同作者 Brendan Shillingford、Yannis Assael 和 Nando de Freitas,兩篇論文的一作都是 Brendan Shillingford 和 Yannis Assael,兩篇論文的主題都是脣讀。

LipNet 是一項利用機器學習實現句子層面自動脣讀的技術,該技術將自動脣讀技術的前沿水平推進到了前所未有的高度。那麼 DeepMind 這次的論文主要是講什麼呢?

論文概要

該研究提出了一種新型脣讀系統(如下圖所示),它可以將原始視訊轉換成單詞序列。該系統的第一個元件是資料處理流程,用於建立該研究使用的大規模視覺語音識別(LSVSR)資料集,其中的資料來自 YouTube 視訊,包括說話視訊片段及對應的音素序列,共包括 3886 小時的視訊)。該資料集的建立需要結合計算機視覺和機器學習技術。該資料處理流程將原始音訊和標註音訊片段作為輸入,然後進行過濾和預處理,最後輸出音素和嘴脣幀對齊序列的集合。與之前的視覺語音識別研究相比,該研究的資料處理流程使用了 landmark smoothing、模糊度過濾器(blurriness filter)、改進版說話分類器網路和輸出音素。

工程設計+演算法規模化真的是AI突破嗎?DeepMind脣讀系統ICLR遭拒

圖 1:該研究的完整視覺語音識別系統概覽,包括資料處理流程(基於 YouTube 視訊生成嘴脣和音素幀)、用於識別音素的可擴充套件深度神經網路,以及用於推斷的生產級詞解碼模組。

該研究提出的整合式脣讀系統包括視訊處理流程(將原始視訊轉換成音素和嘴脣幀序列的集合)、可擴充套件深度神經網路(將嘴脣視訊與音素分佈的序列進行匹配,即識別音素),以及生產級音訊解碼器(輸出詞序列)。據介紹,該系統在留出集上達到了 40.9% 的詞錯率(WER)。相比之下,專業脣讀者在同樣的資料集上的詞錯率為 86.4% 或 92.9%,且他們可以獲取額外的語境資訊。該方法相比之前的脣讀方法有顯著提升,包括 LipNet 和 Watch, Attend, and Spell (WAS) 的變體,二者的詞錯率分別為 89.8% 和 76.8%。

如前所述,該論文在評審階段得到的分數分別為 3,4,9。為什麼會出現這樣的兩極分化局面呢?我們來看一下評審人員的評審意見。

低分評審結果

領域主席(AC)在 reject 宣告中發表了以下觀點:

這篇論文很有爭議,作者和評審人員進行了大量討論,主要的爭論焦點在於該論文是否適合 ICLR。這篇論文的所有評審人員都認可該研究的質量和研究結果,但是在該論文是否適合 ICLR 這個問題上存在很大分歧。

一位評審者認為適合,但其他兩位持反對看法,他們認為要想被 ICLR 接收,這篇論文要麼更加註重資料集的準備,包括資料集的公開發布,以便其他研究者可以從該研究中獲益,將該研究提出的 V2P 模型作為脣讀任務的(非常)強基線;要麼更深入地探究該研究中關於表徵學習的內容,如對比音素和視位單元、提供更多(當然也更費時費力)對照實驗(ablation experiment),以便更深入地揭示該 V2P 架構的哪個元件帶來了效能改進。

AC 認為兩位持反對意見的評審者的論據充分,具備一定說服力。很明顯,很多監督式分類任務(即使是脣讀這樣的結構化分類任務)可以通過足夠靈活的學習架構和大規模標註資料集來解決,而這篇論文使用的建模技術本質上並不新穎,即使該技術的應用領域是脣讀。此外,如果該研究建立的資料集不公開發布,則其他人無法基於該資料集進行研究。目前來看,該論文較適合偏重應用的會議。

匿名評審 1(評分 3)

很明顯,該論文提出了一種大規模脣讀系統。很好的一項工作,也可能是當前最強大、通用的脣讀系統,但我覺得該工作與論文並不是很適合 ICLR。

論文作者收集了大量 YouTube 視訊,並過濾和抽取能用於脣讀的區域。然後他們設計了一種可擴充套件的預處理方法,並使用 CTC 方法訓練基於音素的聲學模型。不過他們似乎使用了 Miao 等人 2015 的研究《EESEN: END-TO-END SPEECH RECOGNITION USING DEEP RNN MODELS AND WFST-BASED DECODING》與谷歌 WFST 解碼架構,並實現大約 40% 的詞錯率。結果很不錯,但是我並沒有看到任何創新性,論文中也充滿了矛盾。

因此,匿名評審 1 從細節到概念提出了 10 個問題,包括:LipNet 和這個架構看起來很類似,也許你們可以指出哪些改變造成了這兩個系統的效能差異?」

在論文作者回應後,匿名評審 1 表示:

在目前的版本中,作者指出這篇論文之所以重要,主要是因為(1)資料規模大/效能好;(2)能幫助聽力受損的人;(3)與影像處理流程的相關性。這表明該論文適合大資料和/或偏工程的會議、 accessibility leaning 會議,或偏應用的語音/視覺(甚至多模態)會議。

就當前的論文版本而言,我仍然很難發現哪個或哪些修改可以令這篇論文適合 ICLR,我認為作者可以繼續深挖模型為什麼要這麼做,以及解決一些問題(是否會公開發布資料集?為什麼使用音素而不是視位?)

匿名評審 2(評分 4)

該研究收集的資料集無疑是一項貢獻,但除此之外,技術創新不夠,因為所有的技術在視訊脣讀或者語音識別中都被提出過。表 1 中的數值很驚人,但難以搞清楚提升來自哪裡。因此,值得多做一些實驗:a) 在標註資料集不變的情況下改變網路架構;b) 固定網路架構,改變標註資料集;c) 固定網路架構與標註資料集,改變 dropout 或組歸一化。seq2seq 在此論文中就是一熊孩子,因為你無法拿它和其他設定對比。表 2 的資料也很驚人,但如果提出的系統能在 LRS3-TED 上訓練,並與 TM-seq2seq 對比會更好。

現在大家的共識是,大模型加上大資料會提升表現,但這類改進不能被看作是貢獻。作者有責任做一些綜合實驗,證明論文中的改進不是因為更大的模型、更多的資料。

在論文作者回應後,匿名評審 2 表示:

我認為該論文提出的資料集和系統都有很大貢獻,也將會有很大的影響力。但是,我依然認為該研究技術創新有限,因為我讀完之後沒學到任何東西,除了這個任務很難。整體方法和 Miao 等人 2015 年的論文一致,網路架構也類似於 Sainath 等人 2015 年的論文。我同意評審 1 的觀點,很難給這篇論文高分。如果這篇論文 focus 在資料集以及資料集準備流程且提供強大的基準上,我可能樂意給出一個高分。

高分評審結果

匿名評審 3(評分 9)

這是一篇好論文。首先,它提供了一個大規模視覺語音識別語料庫。其次,它展示了一個基於開放詞彙的視覺語音識別系統,且取得了當前最優的準確率。論文寫作也很好,所有的技術細節非常明晰。我個人非常感謝作者把這一精細研究貢獻給社群。這是我在 ASR/VSR 社群看到的最大的 VSR 資料集,也是表現最令人深刻的一項研究。讀這篇論文,非常享受。

基於反饋,我再補充些評審意見。一些人認為這項工作在工程上很成功,但缺乏技術創新,因此不能被 ICLR 接收。但我不這麼認為。首先,作者把建立大規模視覺語音識別資料集的技術設計流程描述的非常清楚,這對社群貢獻就很大。(在評審論文時,我假設此資料集將會開放給社群,這可能不太對,我在此致歉。我真的希望該資料集能夠公開,這是我給高分的主要原因。)其次,作者構建了一個在視覺語音識別任務上取得頂尖水平的系統。儘管模型與架構已經有了,但驚人的效能本身對此領域的影響就很大。這不是在大量資料上做工程就能得到的(雖然資料發揮一定作用)。這是一篇系統論文,但其影響與效能值得被 ICLR 大會接收。

工程設計+演算法規模化真的是AI突破嗎?DeepMind脣讀系統ICLR遭拒

相關文章