ACL 2019全程回顧:自然語言處理趨勢

dicksonjyl560101發表於2019-08-06

Alexa AI機器學習科學家回顧並總結了ACL 2019會議內容,從減少偏見、落地應用、模型整合能力等多個方面對目前NLP領域的發展趨勢進行了總結。

本週,在佛羅倫薩舉行的ACL 2019上,參會者中有一個人感慨良多,他就是Alexa AI的機器學習科學家Mihail Eric。

ACL 2019全程回顧:自然語言處理趨勢

他在Alexa的工作和研究內容與自然語義、會話密切相關。而此次大會可以說聚集了來自世界各地的NLP領域最優秀的研究人員,水準之高無需多言。

ACL 2019全程回顧:自然語言處理趨勢

參加會議就是這樣,總會有一種在知識的湍流中激流勇進的感覺。你身邊充斥著論文、演講、創意和才華橫溢的人。猶豫就會浪費,果斷又會錯過,真是讓人左右為難。

不過好在Eric是個善於總結的人。他將自己在ACL 2019一週時間裡的所見所聞梳理了出來,從中我們得以更直接的瞭解NLP領域在2019年的動態和趨勢,以及未來的發展方向。

社群在努力解決NLP地域偏見和性別偏見

ACL主 席周明在開幕致辭中指出,今年的ACL是歷史上規模最大的, 共提交了2900多份論文,比2018年增加了75%! 自然語言處理領域炙手可熱,學術和行業熱情創歷史新高。

ACL 2019全程回顧:自然語言處理趨勢

然而,全球範圍來看,NLP研究的發展極度不平衡,基本上在NLP上的所有突破性成果都集中在美國和中國,這兩國在研究水平上遠遠領先於其他國家和地區。這樣的狀態容易出現地域偏見的風險,缺乏多樣化的觀點。

周明根據他在亞太地區的NLP社群經驗,指出了一個可能的解決方案,就是在那些代表性不足的地區舉辦更多的學術會議和活動,這樣可以刺激當地NLP研究的積極性。目前也有相關案例,比如在非洲舉辦的深度學習Indaba活動。

除了地域偏見之外,還有性別偏見。一些論文透過實證研究強調了這些事實。例如,Stanovsky等人證明了四種工業機器翻譯系統以及兩種當前最先進的學術(SOTA)模型都非常容易出現基於性別偏見的翻譯錯誤。

NLP社群很清楚這個問題。提出了許多有意思的作品來試圖解決上述翻譯問題,如Kaneko等開發了一種詞彙嵌入的去除方法,可以保留非歧視性別相關資訊,同時消除陳規定型的性別偏見。

而且今年的ACL還在NLP研討會上第一次針對性別偏見問題舉行了會議,並擴大了NLP研討會的範圍,這些研討會將研究這些問題的研究人員聚集在一起,提高認識,並促進富有成果的討論。

當然,NLP社群未來還有很多工作要做,但看到社群採取積極措施來緩解偏見問題令人鼓舞。

NLP應用程式已經非常豐富

NLP研究的當前狀態是令人振奮的。

ACL 2019全程回顧:自然語言處理趨勢

因為NLP領域現在處於技術和應用相融合的階段,目前開發的模型和工具可以應用在很多場景下,解決許多實際問題,會議上展示的各種NLP應用程式也讓這一點變得清晰起來。

在神經網路生成的假新聞成為一大問題的時代,驗證敘述內容的真實性正變得越來越重要。hengli Hu的研究建立了一個系統,利用聲學和語言特徵來識別文字和語音中隱藏的資訊,表現超過人類達15%!

在健康領域,Shardlow等人開發了一種神經網路模型,用於透過特定於某些域的短語列表,讓醫生編寫的臨床資訊對患者而言更具可讀性。在相關研究中,Du等人提出了從臨床對話中提取症狀以及基線模型的任務,以減少初級醫生在與臨床文獻系統互動上所花費的時間。

今年的ACL還有一個專門討論NLP應用於生物學問題的研討會。Fauqueur等人提出了從生物醫學文獻中提取新事實的技術,無需培訓資料或手工製作的規則。Rajagopal和Vyas等人透過在大型資料集上預先訓練LSTM-CRF模型,然後在低資源語料庫上進行微調,在標準資料集上實現21 F1點的改進,從而將語義角色標記系統適應生物過程!

NLP的其他很酷的應用還有包括Zhang等人的研究,該研究提出了電子郵件標題生成的問題(就像Gmail的智慧回覆,但是用於生成電子郵件標題),從自動和人工評估結果來看,這是個有發展前景的問題模型。

先預訓練,然後微調:NLP的新範例

正如神經網路在2011年突然徹底改變了計算機視覺領域,自然語言處理的深度學習的故事同樣也是一個“爆炸性和快速增長”的故事。

從2015年到2017年,NLP中的大多數任務都可以透過一個相對簡單的公式來解決:透過某種連續的向量表示嵌入文字輸入,編碼這些表示,參與編碼表示,然後預測任務。Matthew Honnibal在一篇文章中很好地描述了這種形式主義。

雖然在概念上很簡單,嵌入,編碼,參與,預測公式曾一度幾乎不可阻擋的在所有型別的任務上實現SOTA結果,例如機器翻譯,問答和自然語言推理等等。

如今,隨著強大的預訓練表示的出現,使用ELMO,OpenAI GPT和BERT等語言建模目標的某些風格進行訓練,這種模型是在龐大的數量上預先訓練的使用一些較小的域內語料庫對資料進行微調和微調。實際上,這一戰略已經成功地在現有的NLP基準測試中取得了巨大的SOTA成果。

Dai和Yang等人尋求進一步推動基於transformer的語言超級模型,極大地提高速度並實現SOTA困惑數量。這個新正規化的另一個非常有代表性的工作是Liu和He等人利用基於BERT的架構來領先GLUE基準測試排行榜(在提交時)。

除了這些工作本身,圍繞會議的一般性討論是,如果他們使用像BERT這樣的東西,許多架構可以實現幾個百分點的改進。那麼問題就變成了:這種新正規化是否使NLP中的許多建模創新變得無足輕重?

Eric個人觀點是否定的。總的來說,仍然有許多工作仍然是未充分探索的,對於推動NLP進展的下一次迭代至關重要。

將知識融入NLP架構中

雖然現有的預訓練語言超模型體系結構非常強大,但是從原始文字語料庫中進行訓練的方式可以鼓勵您獲得學習的樂趣。換句話說,這類模型學到的東西是相當不受約束的,他們的優越表現可能只是能夠在巨大的資料集中發現不同背景下的許多文字序列例項。我們可以透過擴充基礎知識來源,提供更多的資訊來讓NLP模型的能力超出這個範圍嗎?

ACL有很多論文在試圖處理這個問題。比如有研究人員使用型別化實體嵌入和底層知識圖對齊來增強BERT表示,讓他們的模型在實體型別和關係分類方面勝過BERT。還有人透過KT-NET解決了這個問題,KT-NET使用注意力機制融合來自知識庫(如WordNet和NELL)的選定資訊,從而在Squad 1.1上重新整理了SOTA。

另一篇好文章是Logan等人的論文,此文提出了知識圖語言模型,這是一種生成體系結構,可以從與基礎上下文相關的知識圖中有選擇性地複製事實,效能優於強基線語言模型。

雖然將知識融入神經模型確實是一個難題,但從目前的結果來看,似乎很有希望!

模型的可解釋性問題仍是關注熱點

眾所周知,神經網路屬於黑盒模型,為此,要真正理解所學習的決策函式是特別困難的。姑且不論追求這些模型的完全可解釋性是否絕對必要,但可以說,對模型內部結構的某種程度的理解可以為未來的架構設計提供有用的資訊。ACL上的幾篇好文章為理解現有模型提供一些新啟示。

塞拉諾團隊的研究表明,儘管有時候注意力機制對錶明模型結構的概念非常重要,但有些情況下,其他替代性排名指標可能會更有效地解釋模型的決策過程。

Jawahar團隊則探討BERT學習的語言結構,證明BERT的層學習 豐富的語言資訊,如底層的表面特徵,中間層的句法特徵和頂層的語義特徵。作者進一步建議,更深層的網路是學習長距離彼此相關的資訊所必需的條件。

還有其他一些文章著力解決模型的可解釋性問題。Gehrmann團隊開發了一種工具,透過對預測單詞標記的模型密度進行視覺化,來檢測神經網路生成的假文字,檢測準確率提高了近20%。Sydorova團隊研究了一些事後解釋的方法,如問答系統上的LIME,證明某些技術可以幫助人類從幾個QA模型中識別出最優秀的那個。

重新思考自然語言生成中的評估和假設

自然語言生成的評估的概念仍然是一個非常有爭議的問題,因此這種重新思考是值得提倡的。

Maxime Peyrard證明,在評估某些評分範圍內的表現時,某些自動評估彙總指標是不一致的。Clark團隊根據句子移動的相似性提出了一個新的生成文字評估指標,與標準ROUGE相比,該指標與人類判斷的相關性更強。

模型生成的文字往往會受到事實錯誤和虛假陳述的影響。Falke團隊研究了是否可以將自然語言推理系統用於重新排列輸出,作為處理這一問題的方法。他們發現,“開箱即用”的NLI系統還不足以適應下游任務,並提供了一些必要的工具,讓這些推理系統達到所需的效能。

Maxime Peyrard還進行了更為基礎的研究工作,對冗餘、相關性和資訊性等某些概念進行了理論上嚴格的理論定義。

除了評估相關的工作之外,Sankar團隊對傳統的遞迴網路和基於transformer的seq2seq對話模型可以從對話歷史中學習的假設提出了質疑。特別是,他們表明這些模型對應用於背景的某些擾動不是非常敏感,從而對對話自然語言生成器的效果提出了挑戰。

探索“預訓練-微調”之外的正規化

我們經常使用基準測試來衡量任務的表現和效能改進,而這些模型中許多模型已經接近或超過了這些現有NLP基準測試的人類表現。那麼我們怎麼辦?

這是Zellers團隊提出的問題。在早期的研究中,他們已經面向常識NLP的問題引入了一個挑戰資料集,但在釋出之後不久就發現,BERT已經達到了接近人類的表現。為了解決這個問題,作者提出了一個後續資料集,該資料集是使用“對抗性過濾”的技術開發,用於選擇BERT和其他模型難以回答的示例。在此過程中,他們大大增加了基準的複雜度。

BERT當然不是完美的。Nangia等人的一項研究表明,基於BERT的模型在稀缺資源句子分類任務上的表現並不好,並提出了名為SuperGLUE的後續自然語言理解基準模型,專門用於評估這類任務。

McCoy等人的另一項研究表明,用於自然語言推理的BERT模型學習的是非常簡單的句法啟發式方法,這些方法不能很好地適用於為其他任務例項。他們還發布了一個評估集,以確定模型是否採用這些啟發式演算法,解決更一般的推理問題。

總而言之,我的感覺是,目前的大部分模型仍在解決資料集問題,而不是處理實際任務。我們構建的模型在選擇並利用特定於資料集的偏差方面效果驚人。在此過程中,我們制定的評估指標描繪出了具有相當誤導性的場景。這讓我想起了古德哈特定律:當手段變成了目標,它就不再是一個好的衡量標準。那麼我們如何繼續前進呢?

鑑於這些評估標準是自然語言任務的代理,而且在模型開發進展迅速的情況下,想讓基準保持不變似乎是不合理的。相反,我發現特別有希望的一條路是,開發一套難度不斷增加的、不斷變化的動態基準,每個基準都能夠進一步推動自然語言能力的提升。也許這套基準的效能極限,這就在機器中實現人類級的NLP表現。

寫在最後

從這次ACL的論文來看,NLP的領域正在蓬勃發展!社群正在處於一個非常激動人心的時期,也有許多有前途的研究。儘管過去的一年NLP領域取得了實質性進展,但仍有許多突出的挑戰和未解決的問題需要解決。

原文連結:


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2652818/,如需轉載,請註明出處,否則將追究法律責任。

相關文章