當訓練資料集和測試資料集的分佈相同時,機器學習模型可以表現出優越的效能。然而在開放世界環境中,模型經常會遇到分佈外(Out-of-Distribution, OOD,下稱“OOD”)樣本,OOD樣本可能會導致模型做出不可預測的行為,而錯誤的後果可能是致命的,尤其是在自動駕駛等高風險場景中 [1, 2]。因此OOD檢測對於保障機器學習模型在實際部署中的可靠性至關重要。
大多數OOD檢測方法 [1, 3] 可以基於訓練有素的分佈內 (In-Distribution, ID) 分類器有效地檢測 OOD 樣本。然而,對於不同的ID資料集,它們需要重新訓練分類器才能進行OOD檢測。此外,這些方法僅依賴於視覺模式,而忽略了視覺影像與文字標籤之間的聯絡。隨著大規模視覺語言模型(Vision-Manguage Models , VLMs,例如CLIP [4])的出現,使得零樣本 OOD 檢測成為了可能[5]。透過構建僅具有 ID 類別標籤的文字分類器,能夠實現在無需重新訓練分類器的情況下跨不同的 ID 資料集檢測 OOD 樣本。
儘管現有的基於CLIP的分佈外檢測方法展現出了令人印象深刻的效能,但是它們在遇到較難檢測的分佈外樣本時常常會檢測失敗,我們認為現有僅依賴ID 類別標籤構建文字分類器的方法很大程度上限制了 CLIP 識別來自開放標籤空間樣本的固有能力。如圖1 (a) 所示,僅依賴ID 類別標籤構建文字分類器的方法難以區分較難檢測的OOD樣本 (ID資料集:CUB-200-2011,OOD資料集:Places)。
圖1. 研究動機示意圖:(a) 僅依賴ID 類別標籤構建文字分類器, (b) 使用真實OOD標籤, (c) 使用LLM想象潛在的異常值暴露
在這項工作中,我們提出了一種名為Envisioning Outlier Exposure (EOE) 的分佈外檢測方法,該方法利用透過利用大型語言模型 (LLM) 的專家知識和推理能力來想象潛在的異常值暴露,從而提升VLMs的OOD檢測效能 (如圖1 (c) 所示),同時無需訪問任何實際的 OOD 資料。我們設計了 (1) 基於視覺相似性的 LLM 提示,以生成專門用於 OOD 檢測的潛在異常值類標籤,以及 (2) 基於潛在異常值懲罰的新評分函式,以有效區分難以識別的 OOD 樣本。實驗表明,EOE 在不同的 OOD 任務中實現了優越的效能,並且可以有效地擴充套件到 ImageNet-1K 資料集。
Ø論文連結:https://arxiv.org/pdf/2406.00806
Ø程式碼連結:https://github.com/tmlr-group/EOE
接下來將簡要地向大家分享我們近期發表在 ICML 2024 上的分佈外檢測方向的研究結果。
預備知識
方法介紹
EOE旨在透過利用 LLM 生成潛在的異常值類別標籤來提高零樣本 OOD 檢測效能。然而,由於模型部署時遇到的OOD類別是未知的,那麼,我們應該如何引導 LLM 生成所需的異常值類別標籤?在獲取異常值類別標籤後,我們如何才能更好地區分 ID 和 OOD 樣本?為了解決這些問題,我們提出了基於視覺相似性原則設計的專門針對 OOD 檢測的 LLM 提示,並引入了一種新穎的評分函式來更好地區分ID/OOD樣本。我們方法的總體框架如圖 2所示。
圖2. EOE總體框架圖
Fine-grained OOD 檢測也稱為開放集識別,在Fine-grained OOD 檢測中,ID 和 OOD 樣本都屬於同一主要類別(例如“鳥”類),並且子類之間存在內在的視覺相似性 (例如“麻雀”和“燕子”)。因此,指示 LLM 直接提供同一主要類別內的不同子類更為合適。
以上三種OOD 檢測的 LLM 提示如圖3所示
圖3. 基於視覺相似性原則設計的三類LLM提示
圖4. EOE虛擬碼
我們的方法優點總結如下:
EOE 不依賴於未知 OOD 資料的先驗知識,因此特別適合開放世界場景。
零樣本:同一個預訓練模型可有效地應用於各種特定於任務的 ID 資料集,而無需對每個特定 ID 資料集進行單獨訓練。EOE 僅透過了解 ID 類標籤即可實現卓越的 OOD 檢測效能。
可擴充套件性和通用性:與同樣生成潛在OOD 類標籤的現有零樣本 OOD 檢測方法 [6]相比,EOE 可以輕鬆應用於 ImageNet-1K 等大規模資料集。此外,EOE 在不同任務中表現出通用性,包括Far, Near和Fine-grainedOOD 檢測。
實驗結果
我們在不同OOD任務的多個資料集上進行了實驗。表1展示了在ImageNet-1K 上進行Far OOD 檢測實驗結果,其中,Ground Truth表示使用真實OOD標籤時的效能,在實際部署中是不可獲取的。結果表明,EOE 與微調方法相當,並超越了 MCM [5]。
表1. Far OOD實驗結果
我們也報告了在Near OOD和Fine-grained OOD任務上的實驗結果,如表2和表3所示,我們的方法均實現了最佳的檢測效能。
表2. Near OOD實驗結果
表3. Fine-grained OOD實驗結果
我們對EOE的各個模型進行了消融實驗,包括不同的得分函式,LLM提示:不同的LLM和不同長度的潛在OOD 類標籤數量。實驗表明,我們設計的得分函式和基於視覺相似性原則設計的LLM prompt獲得了最優的效能,並且我們的方法在不同的LLM和不同長度的潛在OOD 類標籤數量上都獲得了優異的表現。同時,我們也對視覺語言模型的結構進行了消融實驗,詳細的實驗結果請大家參考原文。
圖5. 消融實驗 –不同的得分函式、LLM提示和不同的LLM
圖5. 消融實驗 –生成潛在OOD 類標籤數量
我們對EOE的有效性進行了分析,實際上,生成的異常類標籤不太可能有很高的機率命中真實值 OOD 類。這是因為在模型的實際部署中遇到的 OOD 資料是多種多樣,且不可預測的。然而,透過視覺相似性規則引導,即使沒有命中真實的OOD類的情況下,EOE生成的潛在異常類標籤仍然可以提高模型在 OOD 檢測中的表現。
為了說明以上論點,我們展示了透過 T-SNE從標籤匹配分數的 softmax 輸出中得出的視覺化效果。我們的 EOE 與對比方法 MCM 之間的視覺化結果如圖6所示。基於 ImageNet-10 的 ID 類標籤,LLM 生成基於視覺相似性規則的潛在異常標籤“潛艇”。當遇到 OOD 類 “蒸汽機車”(ImageNet-20 中的類)時,“蒸汽機車” 在 和 中與“潛艇”的相似度最高。因此,EOE 會將其聚類為 “潛艇”,從而將其檢測為 OOD 類。然而,如果沒有潛在的異常類標籤,我們可以發現 MCM 傾向於將所有 OOD 類標籤聚類在一起。這可能導致將難以識別的 OOD 樣本識別為 ID 類。總之,在我們的 EOE 框架中,1) 屬於同一類的 OOD 樣本傾向於被聚集在一起,2) 同一組的樣本被歸類到與它們在視覺上相似的設想的異常值類中(“蒸汽機車” vs“潛艇”)。這些觀察結果表明,我們的 EOE 可以在不觸及實際 OOD 類別的情況下增強 OOD 檢測,並且在語義上也更易於解釋。我們希望這項工作能為 OOD 檢測領域的未來研究提供一個新的思路。
圖6. 視覺化結果
參考文獻
[1] Hendrycks, D. and Gimpel, K. A baseline for detecting misclassified and out-of-distribution examples in neural networks. In ICLR, 2017.
[2] Yang, J., Zhou, K., Li, Y., and Liu, Z. Generalized out-of-distribution detection: A survey. arXiv preprint arXiv:2110.11334, 2021.
[3] Liu, W., Wang, X., Owens, J., and Li, Y. Energy-based out-of-distribution detection. In NeurIPS, 2020.
[4] Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., et al. Learning transferable visual models from natural language supervision. In ICML, 2021.
[5] Ming, Y., Cai, Z., Gu, J., Sun, Y., Li, W., and Li, Y. Delving into out-of-distribution detection with vision-language representations. In NeurIPS, 2022.
[6] Esmaeilpour, S., Liu, B., Robertson, E., and Shu, L. Zeroshot out-of-distribution detection based on the pre-trained model clip. In AAAI, 2022.
課題組介紹
香港浸會大學可信機器學習和推理課題組 (TMLR Group) 由多名青年教授、博士後研究員、博士生、訪問博士生和研究助理共同組成,課題組隸屬於理學院計算機系。課題組專攻可信表徵學習、基於因果推理的可信學習、可信基礎模型等相關的演算法,理論和系統設計以及在自然科學上的應用,具體研究方向和相關成果詳見本組Github (https://github.com/tmlr-group)。課題組由政府科研基金以及工業界科研基金資助,如香港研究資助局傑出青年學者計劃,國家自然科學基金面上專案和青年專案,以及微軟、英偉達、百度、阿里、騰訊等企業的科研基金。青年教授和資深研究員手把手帶,GPU計算資源充足,長期招收多名博士後研究員、博士生、研究助理和研究實習生。此外,本組也歡迎自費的訪問博士後研究員、博士生和研究助理申請,訪問至少3-6個月,支援遠端訪問。有興趣的同學請傳送個人簡歷和初步研究計劃到郵箱 (bhanml@comp.hkbu.edu.hk)。