AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
論文題目:Embedding Trajectory for Out-of-Distribution Detection in Mathematical Reasoning
論文地址:https://arxiv.org/abs/2405.14039
OpenReview: https://openreview.net/forum?id=hYMxyeyEc5
程式碼倉庫:https://github.com/Alsace08/OOD-Math-Reasoning
相比於文字生成,數學推理場景下不同域的輸入空間的聚類特徵並不明顯,這意味著 Embedding 可能難以捕獲數學問題的複雜度;
更重要地,數學推理下的輸出空間呈現出高密度疊加特性。研究團隊將這種特性稱作 “模式坍縮”,它的出現主要有兩個原因:
(1) 數學推理的輸出空間是標量化的,這會增大不同域上的數學問題產生同樣答案的可能性。例如 和 這兩個問題的結果都等於 4;
(2) 語言模型的建模是分詞化的,這使得在數學意義上差別很大的表示式在經過分詞操作後,共享大量的 token(數字 0-9 和有限的運算子)。研究團隊量化了這一觀察,其中表示出現的所有 token 數,表示出現過的 token 種類, 表示 token 重複率,表示 token 種類在詞表中的佔比,發現在一些簡單的算術場景下,token 重複率達到了驚人的 99.9%!
理論直覺
經驗分析
在 20 層之前,ID 和 OOD 樣本都幾乎沒有波動;在 20 層之後,ID 樣本的 Embedding 變化幅度先增大後又被逐漸抑制,而 OOD 樣本的 Embedding 變化幅度一直保持在相對較高的範圍;
透過這個觀察,可以得出 ID 樣本的 “過早穩定” 現象:ID 樣本在中後層完成大量的推理過程,而後僅需做簡單的適應;而 OOD 樣本的推理過程始終沒有很好地完成 —— 這意味著 ID 樣本的 Embedding 轉換相對平滑。
首先,將每一層 l 的 ID Embedding 擬合為一個高斯分佈:
其次,對於一個新樣本,在獲取了每一層的 Embedding 後,計算它和該層高斯分佈之間的馬氏距離:
最後,將視為新樣本的相鄰層波動率,並取所有相鄰層波動率的平均值作為該樣本的最終軌跡波動率得分:
首先,定義每一層的 k 階 Embedding 和高斯分佈:
其次,計算和之間的馬氏距離:
最後,類似 TV Score 定義差分平滑後的得分:
在 Far-shift OOD 場景下:AUROC 指標提高了 10 個點以上,FPR95 指標更是降低了超過 80%;
在 Near-shift OOD 場景下:TV Score 展現出更強的魯棒性。Baseline 方法從 Far-shift 轉移到 Near-shift 場景後,效能出現明顯下降,而 TV Score 仍然保持卓越的效能。這說明對於更精細的 OOD 檢測場景,TV Score 表現出更強的適應性。