架構瓶頸原則:用注意力probe估計神經網路元件提供多少句法資訊

機器之心發表於2022-12-02

預訓練語言模型在各種自然語言處理任務上的驚人表現,引起了人們對其分析的興趣。Probing 是進行此類分析所採用的最普遍的方法之一。在典型的 probing 研究中,probing 是一個插在中間層的淺層神經網路,通常是一個分類器層。其有助於探查不同層捕獲的資訊。使用輔助任務對 probing 進行訓練和驗證,以發現是否捕獲了此類輔助資訊。

一般來講,研究者首先凍結模型的權重,然後在模型的上下文表示的基礎上訓練probe,從而預測輸入句子的屬性,例如句法解析(其對句子結構進行分析,理清句子中詞彙之間的連線規則)。不幸的是,關於如何設計此類 probe 的最佳實踐仍然存在爭議。

一方面,有研究者傾向於使用簡單的 probe,這樣就可以將 probe 與 NLP 任務區分開來;另一方面,一些人認為需要複雜的 probe 才能從表示中提取相關資訊。此外,還有一些人考慮折中的方法,主張將複雜性 - 準確性帕累託曲線上的 probe 考慮在內。

本文中,來自劍橋大學、蘇黎世聯邦理工學院的研究者提出架構瓶頸原則 (ABP,architectural bottleneck principle) 作為構建有用 probe 的指南,並試圖測量神經網路中的一個元件可以從饋送到它的表示中提取多少資訊。為了估計給定元件可以提取多少資訊,該研究發現 probe 應該與元件完全相同。根據這一原理,該研究透過注意力 probe 來估計有多少句法資訊可用於 transformer。

架構瓶頸原則:用注意力probe估計神經網路元件提供多少句法資訊

論文地址:https://arxiv.org/pdf/2211.06420.pdf

舉例來說,該研究假設 transformer 的注意力頭是其使用句法資訊的瓶頸,因為這是 transformer 中唯一可以同時訪問多個 token 的元件。根據 ABP,該研究提出注意力 probe,就像注意力頭一樣。該 probe 回答了這樣一個問題:transformer 在計算其注意力權重時可以使用多少句法資訊?

結果表明,大多數(儘管不是全部)句法資訊都可以透過這種簡單的注意力頭架構提取:英語句子平均包含 31.2 bit 的句法樹結構資訊,而注意力 probe 可以提取 28.0 bits 資訊。更進一步,在 BERT、ALBERT 和 RoBERTa 語言模型上,一個句子的語法樹大部分是可以被 probe 提取的,這表明這些模型在組成上下文表示時可以訪問句法資訊。然而,這些模型是否真的使用了這些資訊,仍然是一個懸而未決的問題。

注意力 Probe 

目前,有許多方法用來設計有效的 probe,分類原則大致包括:線性原則、最大資訊原則、易提取原則,此外還包括本文提出的 ABP 原則。

可以說 ABP 將前三個原則聯絡起來。最重要的是,ABP 泛化了線性原則、最大資訊原則,此外,ABP 還透過限制 probe 的容量來隱式控資訊制提取的難易程度。

該研究重點關注 transformer 注意力機制。此前研究人員曾斷言,在計算注意力權重時,transformer 會使用句法資訊。此外,注意力頭是 transformer 中唯一可以同時訪問多個單詞的元件。因此,在注意力頭的背景下探索 ABP 是一個自然的起點。具體而言,根據 ABP,我們可以研究 transformer 的注意力頭可以從輸入表示中提取多少資訊。

實驗結果

對於資料,研究者使用了通用依賴(UD)樹庫。他們分析了四種不同型別的語言,包括巴斯克語、英語、泰米爾語和土耳其語。此外,研究者將分析重點放在未標記的依賴樹上,並注意到 UD 使用特定的句法形式,這可能會對結果造成影響。

對於模型,研究者探討了以上四種語言的多語言 BERT 以及僅支援英語的 RoBERTa 和 ALBERT。根據 ABP,他們保持 probe 的隱藏層大小與 probed 架構中的相同。最後,他們還將一個具有與 BERT 相同架構的未訓練 transformer 模型作為基線。

下圖 1 展示了主要結果。首先,研究者的 probe 估計大多數句法資訊可以在中間層提取。其次,大量句法資訊在饋入注意力頭的表示中進行編碼。雖然他們估計使用英語、泰米爾語和巴斯克語句子編碼的資訊接近 31 bits,但使用土耳其句子編碼的資訊約為 15 bits。研究者懷疑這是因為土耳其語在語料庫中的句子最短。

架構瓶頸原則:用注意力probe估計神經網路元件提供多少句法資訊

研究者還發現,句子中的幾乎所有句法資訊都可用於考慮中的基於 transformer 的模型。例如在英語中,他們發現資訊量最大的層在 BERT、RoBERTa 和 ALBERT 中的 V 係數分別為 90%、82% 和 89%,具體如下表 1 所示。這意味著這些模型可以訪問一個句子中約 85% 的句法資訊。不過未訓練的 BERT 表示並不適合這種情況。

架構瓶頸原則:用注意力probe估計神經網路元件提供多少句法資訊

最後,研究者將 BERT 的注意力權重(透過其預訓練的注意力頭計算)直接插入到原文公式 (8) 並分析產生的未標記附件分數。英語相關的 BERT 結果如下圖 2 所示。簡言之,雖然注意力頭可以使用大量的句法資訊,但沒有一個實際的頭可以計算與句法樹非常相似的權重。

但是,由於 BERT 有 8 個注意力頭,因此可能以分散式方式使用句法資訊,其中每個頭依賴該資訊的子集。

架構瓶頸原則:用注意力probe估計神經網路元件提供多少句法資訊

相關文章