作者 | KYLE WIGGERS
譯者 | Kolen
出品 | AI科技大本營(ID:rgznai100)
自然語言模型通常要解決兩個難題:將句子字首對映到固定大小的表示形式,並使用這些表示形式來預測文字中的下一個單詞。
在最近的一篇論文(https://arxiv.org/pdf/1911.00172.pdf)中,Facebook AI Research的研究人員宣稱,第一個問題——對映問題——可能比預測問題更容易,他們在具有“最近鄰”檢索機制的語言模型上建立了一個假設來擴充語言模型。他們稱,它可以記住罕見的模式,並且無需額外的培訓即可達到最新的複雜性評分(詞彙和語法多樣性的衡量標準)。
正如研究人員所解釋的那樣,語言模型將概率分配給單詞序列,從而使它們根據標記(例如單詞)的上下文序列來估計目標標記的分佈(發生不同可能結果的概率)。他們所提出的方法KNN-LM將上下文對映到由預先訓練的語言模型計算的固定長度的數學表示形式。給定一個訓練示例,定義了一個鍵值對,其中鍵是上下文的數學表示,而值是目標單詞。
在測試時,KNN-LM獲取輸入的上下文,並且在接下來的單詞和上下文表上生成下一個單詞的輸出分佈和上下文表示。它根據一個距離函式來檢索其最近鄰,即此時它計算鄰域上的分佈,同時彙總每個詞彙項在檢索到的目標中所有出現的概率。
研究人員注意到,KNN-LM與產生固定大小的上下文表示的任何語言模型都相容。在這項研究中,這使我們能夠在基於Wikipedia文章的1.03億個分片語成的資料集上訓練基於Transformer的模型,其中25萬個分詞保留用於開發和測試。
在實驗中,KNN-LM在測試時“顯著”優於基線,該團隊將其歸因於KNN-LM更傾向於學習具有隱含相似性概念的上下文表示函式。KNN-LM增加了一些計算開銷-大約需要兩個小時才能在單個處理器上為1.03億個條目構建快取,而執行驗證集大約需要25分鐘的時間。但是該團隊指出,將模型並行化是“微不足道的”,而且不需要基於GPU來訓練模型。
該研究的共同作者寫道:“一般來說,我們發現KNN-LM最有用的例子通常包含罕見的模式,例子包括事實知識、命名實體和訓練集中幾乎重複的句子。在這些情況下,為訓練例項和測試例項分配相似的表示形式……比隱式記住模型引數中的下一個單詞似乎更容易解決問題。”
原文連結:
https://venturebeat.com/2020/02/19/facebooks-ai-speeds-up-natural-language-processing-without-additional-training/