CV之後,純MLP架構又來搞NLP了,效能媲美預訓練大模型

機器之心發表於2022-02-14
去年來自谷歌大腦的研究團隊在網路架構設計方面挖出新坑,提出 MLP-Mixer ,這是一個純 MLP 構建的視覺架構。該架構無需卷積、注意力機制,僅需 MLP,在 ImageNet 資料集上就實現了媲美 CNN 和 ViT 的效能表現。

之後清華大學等機構的研究者先後將純 MLP 用於構建視覺架構和新的注意力機制,這些研究將 CV 的研究重心重新指向 MLP。

眾多研究者紛紛感嘆:CV 領域網路架構的演變從 MLP 到 CNN 到 Transformer 再回到 MLP,真簡直是一場 AI 領域的「文藝復興」。

時隔不到一年,來自 IBM Research 的研究團隊近日又提出了 pNLP-Mixer,將 MLP-Mixer 應用於自然語言處理(NLP)任務。

圖片


論文地址:https://arxiv.org/pdf/2202.04350.pdf

大型預訓練語言模型極大地改變了 NLP 的格局,如今它們成為處理各種 NLP 任務的首選框架。但是,由於記憶體佔用和推理成本,在生產環境中使用這些模型(無論是在雲環境還是在邊緣環境)仍然是一個挑戰。

研究者開始提出可替代方案,他們最近對高效 NLP 的研究表明,小型權重高效(weight-efficient)模型可以以很低的成本達到具有競爭力的效能。IBM Research 提出的 pNLP-Mixer,是一種可用於 NLP 任務的基於投影(projection)的 MLP-Mixer 模型,它透過一個全新的投影層(projection layer)實現了高權重效率。

該研究在兩個多語言語義分析資料集 MTOP 和 multiATIS 上對模型進行了評估。結果表明,在 MTOP 資料集上,pNLP-Mixer 達到了與 mBERT 媲美的效能,而後者有 38 倍多的引數,此外,pNLP-Mixer 還優於小模型 pQRNN,而後者引數是前者的 3 倍。在長序列分類任務中,pNLP-Mixer 在沒有進行預訓練的情況下比 RoBERTa 表現更好,後者的引數是 pNLP-Mixer 的 100 倍。

pNLP-Mixer 架構

作為一種從頭開始設計的高效架構,pNLP-Mixer 適用於兩種邊緣情況,即記憶體和延遲受限,並作為 NLP pipeline 的主幹網路而存在。

圖片


圖 1 描述了 pNLP-Mixer 模型的架構,是基於投影的模型,不像基於 transformer 的模型那樣可以儲存大型嵌入表。pNLP-Mixer 使用投影層,該投影層使用不可訓練的雜湊函式從單個 token 中捕獲詞法知識。這個投影層可以被看作是從輸入文字中生成表徵的特徵提取器。一旦輸入特徵被計算出來,它們就會被送入一個稱為瓶頸層(bottleneck layer)的可訓練線性層。其中瓶頸層的輸出是標準 MLP- mixer 架構(Tolstikhin et al., 2021)的一系列 MLP 塊的輸入。

使用全 MLP 架構進行語言處理具有一些優點。與基於注意力的模型相比,MLP-Mixer 可以捕獲長距離依賴關係,而不會在序列長度上引入二次成本。此外,僅使用 MLP,模型不僅實現起來簡單,而且在從手機到伺服器級推理加速器的各種裝置中都具有開箱即用的硬體加速功能。

這項研究表明,在 NLP 任務中,像 MLP-Mixer 這樣的簡單模型可以作為基於 transformer 模型的有效替代方案,即使在不使用大型嵌入表的環境中也是如此。這其中的關鍵是模型提供了高質量的輸入特徵。

投影層

投影層是基於區域性敏感雜湊(LSH),從文字中建立表徵。雖然這一概念在其他現有的投影中是常見的(例如 pQRNN (Kaliamoorthi et al., 2021)),但該研究提出的投影方法卻是全新的。MinHash 因計算簡單被用作雜湊函式,並依靠子詞 tokenization 來確定雜湊輸入。子詞 tokenization 通常在 transformer 模型中使用,它確保了任何字串都可以被表徵為子詞單元的組合,即不存在詞表外的詞。在該研究的語境中,使用子詞 tokenizer 有兩個主要優點:

透過訓練新的 tokenizer 或使用可用的預訓練語言模型中的詞彙來擴充語言知識; 
每個子詞單元的表徵可以被快取以降低推理成本。

圖片



投影層透過複用詞彙表 V 的單個子詞單元的 fingerprint 來計算每個輸入 token t 的 MinHash fingerprint F^t。fingerprint F ∈ N^n 是由 n 個正整陣列成的陣列(F_0 到 F_(n-1) ) ,使用 n 個不同的雜湊函式 h_0(x) 到 h_n-1(x) 將字串對映成正整數來進行計算。

MLP-Mixer 

MLP-Mixer 是一個簡單的架構,僅由 mixer 塊組成,每個塊有兩個多層感知器 (MLP),以換位操作(transposition operation)進行交錯。第一個 MLP 輸出的換位給到第二個 MLP,然後對序列維度進行操作,從而有效地混合了 token 之間的資訊。此外,MLP-Mixer 遵循了最初的架構設計,使用了跳躍連線、層標準化和 GELU 非線性。

在該方法中,投影層產生的矩陣 C∈R^(2w+1)m×s 將透過一個瓶頸層,即一個線性層,該線性層輸出矩陣 B∈R^b×s,其中 B 為瓶頸大小,s 為最大序列長度。這個矩陣 B 是 MLP-Mixer 模型的輸入,它反過來產生與 B 相同維度的輸出表徵 O∈R^(b×s)。在輸出 O 之上應用分類頭以生成實際預測。在語義解析的情況下,這個分類頭是應用於每個 token 的線性層,而對於分類任務,該方法使用注意力池化。

實驗

在評估模型的最終效能之前,該研究徹底分析了所提架構。本節的實驗是在英文 MTOP 的驗證集上進行的,報告的指標是最佳 epoch 的精確匹配準確率(exact match accuracy)。該研究使用具有 2 層的 pNLP-Mixer 作為基礎模型,瓶頸和隱藏大小為 256,輸入序列長度為 64,token 特徵大小固定為 1024,視窗大小為 1,並訓練 80 個 epoch,學習率為 5e ^-4 、batch 大小為 256。

投影比較

首先,該研究比較了不同特徵提取策略對效能的影響,包括:

  • BERT 嵌入

  • 二進位制

  • TSP

  • MinHash

  • SimHash


下表 1 給出了基模型獲得的投影分數。結果表明,BERT 嵌入的效能極差,這是因為 BERT 的主要優勢之一是它產生上下文嵌入,即包含來自周圍上下文的資訊的嵌入,這裡需要單獨嵌入每個 token。關於基於雜湊的投影,它們都在相同的值範圍內達到分數。然而,表現最好的投影 MinHash,精確匹配準確率為 80.8%,與最差的投影 TSP 相比,其得分為 77.6% ,它們之間存在相當大的差異。超過 3% 的差異凸顯了仔細設計投影層的重要性,並證明了進一步研究投影演算法的努力。鑑於這些結果,在剩下的實驗中,該研究僅將 MinHash 視為投影層。


圖片


模型比較

已有結果表明,MinHash 投影提供了強大的語言表徵。下一個問題是 MLP-Mixer 是否是處理這種表徵的最佳架構。為了研究這一點,該研究首先考慮一個基線,其中 MLP-Mixer 被移除,瓶頸層的輸出直接傳遞給分類頭。在這裡,研究者考慮兩個不同的投影層,一個視窗大小為 1,另一個視窗大小為 4。該研究將 MLP-Mixer 與其他兩種架構進行比較,方法是保持相同的投影、瓶頸層和分類頭,並用 LSTM 和具有相似數量引數的 transformer 編碼器專門替換 MLP-Mixer。

表 2 表明簡單地移除 MLP-Mixer 並僅依賴投影會導致效能顯著下降。特別是,使用視窗大小為 1 的投影將引數數量減少到 820K,但代價是效能下降超過 15 個點。另一方面,大型投影層導致引數數量翻倍,而精確匹配準確率僅達到 76.5%,即比 MLP-Mixer 低 4.3%。從替代模型來看,LSTM 的效能明顯低於 MLP-Mixer,但使用 180 萬個引數,即多出 50%,精確匹配準確率較低(73.9%)。Transformer 模型的引數數量與 MLPMixer (1.2M) 大致相同,得分低 1.4%。最後一個結果是顯著的:對於相同數量的引數,MLPMixer 優於 transformer,同時具有線性複雜性依賴於輸入長度,而不是二次。總體而言,該評估表明 MLP-Mixer 是一種用於處理投影輸出的重量效率高的架構,即它比具有較少引數的替代方案具有更高的效能。

圖片



架構研究

該研究對 pNLP-Mixer 模型進行了廣泛的架構探索,以確定不同超引數對下游效能的影響,研究範圍包括投影超引數和 MLP-Mixer 超引數。對於投影,研究包括 token 特徵大小、雜湊數和視窗大小;而 MLP-Mixer 研究了瓶頸大小(bottleneck size)和層數。使用的學習率為 5e^−4,batch 大小為 256,隱藏大小為 256。表 3 報告了每個配置的精確匹配準確率和引數數量。

圖片


考慮到 MLP mixer,將瓶頸大小(bottleneck sizes)增加到 512 會略微提高效能,而當使用 4 層時,它會達到與 2 層相似的值。然而,這些超引數並不獨立於投影層:較大的投影可能需要較大的 MLP-Mixer 來處理所有的資訊。因此,表 4 研究了投影大小和 MLP-Mixer 之間的關係。

實驗報告了兩個較大模型和兩個較小模型的結果,由結果可得較大的模型具有更大的特徵和瓶頸大小,實驗還表明 4 層達到了所有研究模型的最佳效能。另一方面,其中一個小型模型僅用 200K 引數就達到了 76.9% 的精確匹配。

圖片



表 5 結果表明,大型語言模型 XLM-R 和 mBERT 獲得了最高分。值得注意的是,從較小的替代方案來看,pNLPMixer X-LARGE 只有 4.4M 引數, mBERT 引數量達 170M,平均精確匹配準確率僅比 mBERT 和 XLM-R 低 2 和 3 個點。LARGE 模型具有與 pQRNN 相似的大小,比 pQRNN 精確匹配準確率高近 3%,比精餾後的 pQRNN 高 0.8%。

圖片



表 6 是在 multiATIS 資料集上的評估結果。在這裡,pQRNN 獲得了最高的 intent 準確率,甚至比 mBERT 高出 1.8%。在 pNLP-Mixer 系列中,我們看到更大的尺寸並不對應更好的效能;由於 ATIS 查詢中使用的詞彙相對統一和簡單,因此表達能力更強的模型不一定更好。事實上,BASE 模型在 pNLP-Mixers 中達到最高分,達到 92.1%,僅比只有 1.2M 引數的 mBERT 低 0.5%,但引數只有 pQRNN 引數的 60%。較小的 pNLP-Mixer 模型 SMALL 和 X-SMALL 分別獲得了 91.8% 和 90.0% 的競爭效能,而引數都非常小。

圖片


長序列實驗

表 7 顯示,在 IMDB 中,RoBERTa 和 Longformer 的效能明顯優於 pNLP-Mixer,Longformer 的準確率達到 95.7%,而最好的 pNLP-Mixer 只有 82.9%。然而,在 Hyperpartisan 任務中,Longformer 仍然是最好的模型,而 pNLP-Mixers 的表現優於 RoBERTa, BASE 模型達到 90.6 F1,即高出 3.2 分。

圖片

微型 pNLP-Mixer 模型的引數分別是 Longformer 和 RoBERTa 引數的 1/ 120 倍和 1/ 100 ,在 Hyperpartisan 任務中獲得了具有競爭力(甚至優於 RoBERTa)的結果,而無需任何預訓練或超引數調整。然而,pNLP-Mixer 在 IMDB 上的效能較低。總而言之,這個結果提出了一個問題,即具有預訓練的大型 pNLP-Mixer 是否可以成為大型 Transformer 模型的輕量級替代品。

相關文章