幻覺不一定有害，新框架用AI的「幻覺」最佳化影像分割技術

机器之心發表於2024-11-03

原文網址 : https://www.jiqizhixin.com/articles/2024-11-03-3

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報導了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯絡報導。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

作者胡健，是倫敦大學瑪麗女王學院的博士生，導師是龔少剛教授，這篇文章是在龔少剛教授和嚴駿馳教授的指導下完成的。

在人工智慧領域，大型預訓練模型（如 GPT 和 LLaVA）的 “幻覺” 現象常被視為一個難以克服的挑戰，尤其是在執行精確任務如影像分割時。然而，最新發表於 NeurIPS 2024 的研究《Leveraging Hallucinations to Reduce Manual Prompt Dependency in Promptable Segmentation》提出了一個有趣的觀點：這些幻覺實際上可以被轉化為有用的資訊源，從而減少對手動提示的依賴。

文章連結：https://arxiv.org/abs/2408.15205
程式碼連結：https://github.com/lwpyh/ProMaC_code
專案網址：https://lwpyh.github.io/ProMaC/

這項研究由來自倫敦大學瑪麗女王學院和上海交通大學的研究團隊進行的，他們開發了名為 ProMaC 的框架，該框架創新性地利用了大模型在預訓練過程中產生的幻覺。不僅能夠準確識別影像中的目標物件，還能判斷這些物件的具體位置和形狀，這在偽裝動物檢測或醫學影像分割等複雜任務中表現尤為出色。

研究動機

該研究專注於一種具有挑戰性的任務：通用提示分割任務（task-generic promptable segmentation setting）。在這個框架下，該研究只提供一個任務內的通用提示來描述整個任務，而不會具體指明每張圖片中需要分割的具體物體。例如，在偽裝動物分割任務中，該研究僅提供 “camouflaged animal” 這樣的任務描述，而不會告知不同圖片中具體的動物名稱。模型需要完成兩項主要任務：首先，根據圖片內容有效推理出具體需要分割的目標物體；其次，準確確定目標物體的具體位置和分割的形狀。

儘管如 SAM 這類大型分割模型的存在，能夠在提供較為精確的位置描述時有效地進行物體分割，但在偽裝樣本分割或醫學影像分割等複雜任務中，獲取這種精確描述並不容易。以往的研究，如 GenSAM [1]，提出利用 LLaVA/BLIP2 這類多模態大模型（MLLMs）來推理出特定樣本的分割提示，以指導分割過程。然而，這種方法在處理像偽裝樣本分割這樣的場景時，往往因為目標共現偏差（object co-occasion bias）存在而導致問題。例如，在一個只有草原的影像中，如果訓練資料中獅子通常與草原共現，LLaVA 可能會偏向於預測草原中存在偽裝的獅子，即使圖中實際上沒有獅子。這種假設的偏好在偽裝動物分割任務中尤其問題嚴重，因為它可能導致模型錯誤地識別出不存在的偽裝動物。

圖 1. co-occurrence prior 導致的 hallucination

但是這樣的現象就一定是壞事嗎？其實並不盡然。考慮到獵豹確實常出沒於此類草原，儘管在特定圖片中它們可能並未出現。這種所謂的 “幻覺”，其實是模型根據大規模資料訓練得出的經驗性常識。雖然這種推斷與當前的例子不符，但它確實反映了現實世界中的常態。更進一步地說，這種由幻覺帶來的常識可能有助於更深入地分析圖片內容，發現與圖片相關但不顯而易見的資訊。如果這些資訊得到驗證，它們可能有助於更有效地執行下游任務。

圖 2. ProMaC 整體架構

實現方法

如圖 2 所示，該研究提出了一個迴圈最佳化的 ProMaC 框架，它包括兩部分：利用幻覺來從任務通用提示中推理出樣本特有提示的 multi-scale chain of thought prompting 模組和將生成的掩碼與任務語義相對齊的 mask semantic alignment 模組。前者推斷出較為準確的樣本特有提示來引導 SAM 進行分割，後者則將生成的掩碼與任務語義進行對齊，對齊後的掩碼又可以作為提示反向作用於第一個模組來驗證利用幻覺得到的資訊。透過迴圈最佳化來逐漸獲得準確的掩碼

具體地，ProMaC 框架如圖 3 所示：

圖 3. ProMaC 流程圖

多尺度思維鏈提示

它主要完成兩個任務：收集儘可能多的任務相關候選知識，並生成準確的樣本特有提示。為此，該研究將輸入影像切割成不同尺度的影像塊，每個影像塊中任務相關物件的不同可見性水平激發了 MLLM 的幻覺。這促使模型在各個影像塊中透過先驗知識探索影像資料與相關任務之間的聯絡，進而預測潛在的邊界框和目標物體和背景名稱：

但其中只有正確的資訊才值得保留。為此，該研究引入了視覺對比推理（Visual Contrastive Reasoning）模組。該模組首先使用影像編輯技術建立對比影像，這些對比影像透過去除上一次迭代中識別到的掩碼部分，生成只包含與任務無關背景的圖片。接著，透過將原圖的輸出預測值與背景圖片的輸出預測值相減，可以消除由物體共存偏差帶來的負面影響，從而確認真正有效的樣本特有提示。具體表示式如下：

掩碼語義對齊

獲得的樣本特有提示將被送入掩碼生成器來產生準確的掩碼。首先，樣本特有提示被輸入到分割模組（SAM）以生成一個掩碼。然而，SAM 缺乏語義理解能力，它主要依據給定的提示及其周圍的紋理來識別可能要分割的物體。因此，該研究採用了 CLIP 來評估相同提示在不同影像塊上生成的各個掩碼與目標物體之間的語義相似性。這種方法有助於確保分割結果的準確性和相關性：

歸一化後的相似度用作權重，以加權合成最終的掩碼。這個掩碼在下一次迭代中有助於生成更優質的背景圖片，進而引導更有效的提示生成。這能充分利用幻覺來提取圖片中與任務相關的資訊，驗證後生成更準確的提示。這樣，更好的提示又能改善掩碼的質量，形成一個互相促進的提升過程。

該研究在具有挑戰性的任務 (e.g., 偽裝動物檢測，醫學影像檢測) 上進行了實驗：

圖 4. 偽裝樣本檢測實驗結果

圖 5. 醫學影像實驗結果

圖 6. 視覺化案例

PromaC 提供了一個新視角，即幻覺不一定就是有害的，如果能加以利用，也是能為下游任務提供幫助。

[1] Hu J, Lin J, Gong S, et al. Relax Image-Specific Prompt Requirement in SAM: A Single Generic Prompt for Segmenting Camouflaged Objects [C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2024, 38 (11): 12511-12518.

創新的幻覺
2019-07-16
初創公司的幻覺
2019-01-15
AI 閘道器零程式碼解決 AI 幻覺問題
2024-08-29
AI
幻覺與創新：AlphaFold3為何失敗？
2024-06-16
讓創意在幻覺中肆虐: 認識Illusion Diffusion AI
2024-05-14
AI
Impostors詳解——紙片構築的美麗幻覺
2024-03-21
Lookback Lens：用注意力圖檢測和減輕llm的幻覺
2024-07-12
AI 海洋中的塞壬之歌：大型語言模型中的幻覺現象綜述
2024-08-03
AI模型
揭秘AI幻覺：GPT-4V存在視覺編碼漏洞，清華聯合NUS提出LLaVA-UHD
2024-04-07
AIGPT視覺
AI幻覺能助力科學重大突破？諾獎得主Baker用得可香了
2025-01-01
AI
Llama3可能是產生幻覺最多的小模型
2024-04-27
模型
當視覺大模型陷入認知失調，馬里蘭大學構建了一個幻覺自動生成框架
2024-11-11
視覺大模型框架
用於簡報的新 Dapr 幻燈片
2024-03-14
“幻覺”反而是大語言模型最有用之處
2024-06-14
模型
突破計算機視覺極限，芯原AI-ISP技術帶來創新的影像增強體驗
2022-09-06
計算機視覺AI
虛幻5：或許將會顛覆視覺化行業
2020-05-25
視覺化行業
50種常見的影像分割技術
2024-05-02
虛幻引擎中的實時光線追蹤（二）：建築視覺化
2019-10-15
視覺化
網際網路行業最大的幻覺：有流量就能做好遊戲
2020-09-04
行業遊戲
視覺化技術在 Nebula Graph 中的應用
2022-06-14
視覺化
讀天才與演算法：人腦與AI的數學思維筆記05_演算法的幻覺
2024-04-21
演算法AI筆記
深入虛幻5引擎：Epic次世代視覺奇觀探祕
2020-05-21
視覺
OpenAI Lilian Weng萬字長文解讀LLM幻覺：從理解到克服
2024-07-15
OpenAI
AI攻擊技術和測試研究框架解鎖新視野~用技術對抗技術
2020-04-30
AI框架
有趣！用計算機視覺技術與PaddlePaddle打造AI控煙專案
2018-06-14
計算機視覺AI
物體檢測、影像分割技術概述
2024-10-30
詳解計算機視覺五大技術：影像分類、物件檢測、目標跟蹤、語義分割和例項分割...
2018-04-19
計算機視覺物件
大廠技術實現 | 影像檢索及其在淘寶的應用 @計算機視覺系列
2022-01-22
計算機視覺
視覺SLAM技術綜述
2019-01-05
視覺SLAM
CNN視覺化技術總結（三）--類視覺化
2021-02-14
CNN視覺化
機器視覺在生產包裝技術中的應用
2018-05-21
視覺
技術部落格丨我用深度學習做個視覺AI微型處理器！
2022-01-11
深度學習視覺AI
視覺化影像處理 | 視覺化訓練器 | 影像分類
2024-07-02
視覺化
王禰：虛幻引擎5的開發路線圖及技術解析
2021-12-15
探索跨海大橋新境界：3D視覺化技術的魔力
2024-03-28
3D視覺化
面向視訊的全新AI架構 —— 阿里雲智慧視覺技術全解
2019-04-02
AI架構阿里視覺
揭祕如何搭建夢幻西遊社交框架
2020-10-26
框架
深潮財經解讀USDD：穿過脫鉤幻覺，尋找真實的穩定幣
2022-07-20

幻覺不一定有害，新框架用AI的「幻覺」最佳化影像分割技術

相關文章