NeurIPS 2024 | 用LLM探尋隱秘的因果世界

新闻助手發表於2025-02-08

因果發現的現實挑戰:稀缺的高階變數

尋找並分析因果關係是科學研究中的重要一環,而現有的因果發現演算法依賴由專家預先定義的高階變數。現實場景中的原始資料往往是圖片、文字等高維非結構化資料, 結構化的高階變數是十分稀缺的,導致現有的因果發現和學習演算法難以用於至更廣泛的資料。因此,香港浸會大學與MBZUAI、卡內基梅隆大學、香港中文大學、悉尼大學以及墨爾本大學合作發表論文《Discovery of the Hidden World with Large Language Models》,提出了一個名為 COAT 的新型框架,旨在利用大型語言模型和因果發現方法的優勢,突破傳統因果發現方法的侷限性,更有效地在現實世界中定義高階變數、理解因果關係。

論文已在 NeurIPS 2024 發表:

NeurIPS 2024 | 用LLM探尋隱秘的因果世界


論文標題:Discovery of the Hidden World with Large Language Models

專案地址:
https://causalcoat.github.io/

專案程式碼:
https://github.com/tmlr-group/CausalCOAT

引言

科學的發展離不開對重要變數的識別和它們之間的因果關係的揭示 [1,2]。現有的因果發現方法(Causal Discovery methods, CDs)主要依賴於由人類專家提供的高質量測量變數 [3,4,5]。然而,在更廣泛的實際的應用中,它們往往是稀缺的。例如,想要分析使用者評分相關因素的亞馬遜賣家,只能擁有原始的使用者評論,這些評論是根據使用者對某些產品特徵的潛在偏好撰寫的。因此,缺乏高質量的高階變數一直是 CDs 或受因果關係啟發的方法在更廣泛實際應用中的長期障礙 [6]。

大型語言模型(Large Language Models, LLMs)[7,8,9,10] 透過學習來自真實世界的大量文字資料,在理解非結構化輸入方面展現了驚人的能力,並利用所學到的豐富知識解決各種通用任務 [11,12]。一系列早期的測試表明,LLMs 能夠有效地利用所學知識回答常見的因果問題 [11,13,14]。儘管如此,現有的方法主要集中於將 LLMs 作為一種應用於給定的因果變數的 直接推理器。由於 LLMs 的一系列缺陷 [18,19,20],這種直接推理器的可靠性仍然存在爭議 [13,15,16,17]。更關鍵的是,經典的因果發現方法 [3,4,5] 強調識別因果結構的理論保證,而現有的 LLMs 和因果發現結合的方法仍然沒能給出充分的討論或分析。因此,本文聚焦在一個具有挑戰性的研究問題:LLMs如何可靠地幫助揭示現實世界背後的因果機制?

LLM作為表徵助理用於因果發現

本文的研究目標是利用大語言模型的優勢為非結構化資料設計並提供結構化的表徵。該表徵應當由一系列的高階變數 (factors) 組成,捕捉使用者感興趣的資訊,並具備一定的可解釋性。為了實現這樣的目標,我們提出了一套簡單而有效的框架演算法:Causal representatiOn AssistanT (COAT). 使用者只需提供一個感興趣的目標變數,COAT 將迭代地找尋一組高階變數,構成目標變數的馬爾可夫毯 (Markov Blanket)。在此基礎上,任何合適的因果發現演算法均可用於進一步的因果結構識別,加深對目標變數的理解。

資料

  • 假設有一個使用者感興趣的 目標變數 ,比如消費者對商品的評分,或是患者腫瘤的型別。我們將Y視為一個標量隨機變數。
  • 待分析的 非結構化資料 記做 , 比如消費者附在評分後面的文字評論,或是患者腫瘤對應的醫學影像。
  • 資料集 由從 的分佈中獨立抽取的 對樣本 組成。

注:我們對 和 之間的因果關係不做特定的假設

目標

我們尋求一個對映 ,使得結構化表示 滿足 。換言之, 充當了 關於 的馬爾可夫毯(Markov Blanket)。基於此,可以對 應用下游方法。特別地,我們關注它們之間的因果結構,這些結構將揭示關於目標變數Y的有意義的見解 [21,22]。例如,符合哪類特徵的產品會受消費者歡迎。

大語言模型用作表徵助理

為了充分發揮 LLMs 從原始觀察(即非結構化輸入 )中提取相關資訊的能力,我們將對映 分解為一組高階變數 ,每個高階變數 將原始觀察 對映到一個預定義的值空間 。也就是說,這些高階變數定義了 的表徵:。我們使用符號 來強調高階變數本身,如蘋果的甜度、大小或氣味,而 來強調將原始觀察 對映到預定義值空間 的函式。

高階變數的可解釋性

值得注意的是,上文中的每個高階變數 均是由 LLMs 透過自然語言定義的。將資料 和對應的描述輸入大模型即可得到對應的值。這種定義高階變數的方法讓其可解釋性顯示地可得。比如,令值空間為 , 那麼 可以被定義為

甜度

1: 此消費者對蘋果甜度感到滿意;
-1: 此消費者對蘋果甜度感到失望;0: 沒有提及 / 無法判斷;

這樣, 中的每一個值就有了明確的物理含義。

COAT: Causal representatiOn AssistanT 框架

NeurIPS 2024 | 用LLM探尋隱秘的因果世界


圖 1. COAT 框架示例.

COAT的框架如圖1所示,COAT被用來分析消費者對蘋果的文字評論資料。這裡使用者感興趣的目標變數是消費者對蘋果的評分。

在我們提出的 COAT 框架中,每一輪迭代將依次經過以下幾個步驟。

變數提出

此環節的目的是將 LLMs 對資料的理解轉換為一系列的可能的高階變數。我們取樣一小部分的資料 ,透過 prompt 讓 一個 LLM 提出一些可能的高階變數。

NeurIPS 2024 | 用LLM探尋隱秘的因果世界


圖 2. COAT 在變數提出環節的 prompt 示意.

圖2展示了一個具體的例子。prompt 包含了三個部分:樣本、指示資訊、格式控制。為了幫助 LLMs 更好的注意到與目標變數 相關的資訊,樣本被依據其對應的 的取值分組。接下來,指示資訊要求 LLM 定義具體的高階變數,包括變數的含義、每個變數對應的取值準則。如果有額外的背景資訊或先驗知識,也可一併加在這裡。這裡 prompt 的設計模仿了人類專家選取和定義高階變數的過程 [23]。

此環節的形式化描述:在第 次的COAT迭代中,選用樣本 , prompt , 令 LLM 給出一組高階變數的集合 . 此前所有提出過的高階變數的集合為 .

取值解析

此環節的目的是為先前提出的高階變數解析對應全樣本 的非結構化資料 上對應的取值。在傳統的因果發現流程中,這一步是由人類專家收集的 [3]。在 COAT 中,我們使用 LLM 依據高階變數的定義和其對非結構化資料的理解來給出取值。

此環節的形式化描述:在第 次的COAT迭代中,在全樣本 上透過相應的 prompt , 令 LLM 給出一組高階變數 對應的取值 . 此前所有高階變數的取值為 .

若 LLM 不具備解析高階變數的取值所需要的能力,比如,對外部環境作出干預,可以將額外的過程擴充至此框架中 [24,25]。比如,針對疾病的研究可能需要從病例中標柱相關的症狀,也可能需要做額外的醫學檢查 [26]。在後續的實證研究中,COAT 在這兩類情形下均有良好的表現。

因果發現

獲得高階變數對應的結構化資料 後,便可選用合適的因果發現演算法(如 FCI)分析 上的因果關係。

此環節的形式化描述:在第 次的COAT迭代中,透過因果發現演算法 得到因果圖 .

一般來說,因果結構的可識別性依賴於演算法 所做的假設,因此需要根據情況選取合適的演算法。此外,在取值解析的過程中有可能會引入噪聲,在具體實現時需要額外考慮。為了驗證COAT的概念,本文選用基於條件獨立性檢驗的 FCI 演算法,實際中可根據需要自行調整。

利用反饋進一步尋找高階變數

LLM 需要合適的 prompt 才能發揮作用,很難讓其一次給出足夠的高階變數。此環節的目的是基於因果發現的結果,透過反饋設計 ,尋找合適的資訊,為下一輪迭代準備合適的輸入,讓 LLM 進一步給出合適的高階變數。

形式化描述為:在第 次的COAT迭代中,透過因果圖 , 從全樣本 重新抽樣 .

整體框架總結如下:

NeurIPS 2024 | 用LLM探尋隱秘的因果世界


圖 3. COAT 框架總結.

反饋構建

如前文所述,在第 輪的 COAT 迭代中,我們需要構建合適的反饋來進一步尋找高階變數。

設 為 關於 的任何一組馬爾可夫毯。若它不是 關於 的馬爾可夫毯,即 $Y \not \! \! \! {\perp \! \! \! \perp} X \mid h_{\leq t} (X)$ ,那麼應該存在一個待發現的高階變數 滿足:

其中 表示條件熵。因此,對於下一輪迭代,我們期待的新變數 在 上的條件熵應該滿足

NeurIPS 2024 | 用LLM探尋隱秘的因果世界


圖 4. 待發現的高階變數的不同情形.

如圖4所示, 對於 的馬爾可夫毯中的變數 可分為四種情況,其中 為已經找出的變數。在關於 的條件分佈上, 與 的相關性將得到增強,這啟示我們尋找哪些較難被現有變數 解釋的樣本。因此,對於下一輪迭代,我們希望選取的樣本 應該滿足

為了簡化計算,我們將樣本依 透過K-means演算法聚為 類,選取條件熵最大的一組樣本。讀者可根據情況選擇不同的方式。

理論分析

本文定義了兩個與 LLM 提出高階變數的能力相關的指標:

  • 感知分數 (Perception Score) : LLM 提出符合上文描述的新的高階變數的機率。(可以簡寫為 )
  • 能力分數 (Capacity Score) : LLM 提出符合上文描述的新的高階變數 ,對條件互資訊的貢獻:

若這兩個分數均為正值,且上文關於條件熵的不等式能夠被驗證,那麼對任意 , 為標準高斯分佈的 -分位數,

經過 輪的 COAT 迭代後:

這表明 COAT 可以逐步識別一組 的馬爾可夫毯,也展示了反饋構造的有效性。此外, 上的因果結構的可識別性取決於因果發現演算法 的假設是否滿足。即使演算法 的假設不滿足,馬爾可夫毯的可識別性仍有可能被保證。比如上文關於條件熵的不等式條件的可以透過條件獨立性檢驗測試,主要要求忠實性假設和馬爾可夫性假設。而一些因果發現演算法可能會有額外的假設。

AppleGastronome 實驗

NeurIPS 2024 | 用LLM探尋隱秘的因果世界


圖 5. AppleGastronome 資料樣例.

資料集構造

我們考慮目標變數為美食家對蘋果的評分。每個蘋果都有自己的屬性,包括大小、氣味和味道。每位美食家會關注這三個偏好的一個子集,根據蘋果的表現來評分並撰寫評論。我們使用GPT-4來模擬評論撰寫的過程,生成了200個樣本供LLMs分析,圖5是一些例子。

NeurIPS 2024 | 用LLM探尋隱秘的因果世界


圖 6. AppleGastronome 相關因果圖.

如圖6(a)所示,資料集共涉及 6 個高階變數,包括 3 個 的父節點,還有 2 個節點屬於馬爾可夫毯,一個節點是與 有相關性但應當排除的干擾節點。一個理想的方法應當找出 5 個馬爾可夫毯中的節點,並排除干擾節點。

基線方法

我們比較 3 個基線方法。META 為 LLM 使用背景知識直接給出高階變數;DATA 為沒有反饋機制的單輪 COAT 方法。DATA+CoT 是將 DATA 方法中取值解析換為 CoT 分析。關於用 LLMs 識別因果關係的基準,我們採用讓 LLMs 為每一對變數作出方向判斷 [11] 的方法。

評價指標

我們用三種指標衡量方法識別高階變數的能力:MB:馬爾可夫毯中的高階變數(語義等價即可,下同),最大值為5;NMB:不在馬爾可夫毯中,但屬於6個變數之一,最大值為1;OT:其他變數。實驗也同時計算了相對於馬爾可夫毯的 recall, precision, 和 F1 分數.

結果分析

NeurIPS 2024 | 用LLM探尋隱秘的因果世界


圖 7. AppleGastronome 實驗結果(完整版見論文附錄E.4).

從實驗結果上看:

  • 透過 CoT 提示,LLM 可以更好的分析並識別出與 相關聯的高階變數,但沒能有效區分出馬爾可夫毯。
  • 利用對高階變數的取值解析,COAT 可以有效區分出應當排除的節點,因此有更低的 NMB 指標。
  • COAT 與 DATA 方法的比較,支援了前文的反饋設計能有效促進變數的識別。

NeurIPS 2024 | 用LLM探尋隱秘的因果世界


圖 8. LLMs 相關能力的實驗評估.

LLMs 能否有效識別高階變數?

在先前的理論分析中,我們定義了兩個關鍵的指標來衡量 LLMs 的高階變數識別能力:感知分數 () 和能力分數 (C_\Psi) 。我們在 AppleGastronome 資料集中對這兩個指標做了粗略的估計,將不同 LLMs 依照它們的分數繪製在圖8(c)中。從這一經驗上的結果,我們認為現有的 LLMs 已經初步具備了提取高階變數的能力。

LLMs 能否有效解析高階變數的取值?

我們將 LLMs 解析出的取值與高階變數真實取值相比較。圖8(a) 中要求 LLMs 識別蘋果的客觀屬性,圖8(b) 考慮了一種變體,要求 LLMs 判斷蘋果的屬性是否匹配美食家的偏好,即識別主觀屬性。結果表明,LLMs 雖然在主觀屬性表現稍弱,但仍可以較好的執行此類任務。

NeurIPS 2024 | 用LLM探尋隱秘的因果世界


圖 9. LLMs 標柱噪聲的獨立性檢驗.

LLMs 的取值解析過程可能會引入額外的噪聲,甚至額外的混雜因素。因此,我們也對標註噪聲和特徵之間進行了獨立性測試。如圖9所示,在較先進的 LLMs,例如 GPT-4-Turbo 的幫助下,依賴關係可以控制在可接受的水平。

COAT 能否可靠地輔助還原因果結構?

在本文所考慮的(即便是非結構化的)樣本可得的場景下,相比於使用 LLMs 利用變數名稱直接推斷因果結構,COAT 可以得到更接近實際分佈的因果結構。事實上,COAT 的因果反饋機制最大限度的利用了 LLMs 豐富的先驗知識,且減少了因果發現過程對 LLMs 推理能力的依賴。圖6(b-d)給出了直觀展示。圖10給出定量結果。

NeurIPS 2024 | 用LLM探尋隱秘的因果世界


圖 10. AppleGastronome 資料集上 COAT 因果結構識別評估.

Neuropathic 實驗

NeurIPS 2024 | 用LLM探尋隱秘的因果世界


圖 11. Neuropathic 資料樣例. 個人資訊均為虛構.

資料集構造

這裡的實驗目的是為了利用 Neuropathic benchmark 模擬真實世界的診斷過程:當提出高階變數後,在取值解析階段,使用外部過程來獲得診斷結果。在原始資料集 [26] 中,存在三個層次的因果變數,包括症狀層、神經根病變層和病理生理學層。在本專案中,我們主要考慮右側肩峰下撞擊 (right shoulder impingement) 的目標變數。在利用 GPT-4 生成臨床診斷筆記時,我們將避擴音及除症狀之外的其他變數,以檢驗 COAT 找出其他層級的高階變數的能力。圖11為樣本示例。

實驗結果

NeurIPS 2024 | 用LLM探尋隱秘的因果世界


圖 12. Neuropathic 相關因果圖.

這裡採用與前文類似的評估方法。由於原資料集不完全滿足忠實性假設,這裡定性地比較COAT生成的因果圖和由FCI透過原資料生成的結果。如圖12所示,直接使用 LLMs 做推理不會察覺出特定資料集本身的性質或問題

NeurIPS 2024 | 用LLM探尋隱秘的因果世界


圖 13. Neuropathic 實驗結果.

關於高階變數識別的定量分析如圖13所示,其中PA、AN 和 OT 分別代表父母節點、祖先節點和其他應當排除的節點。準確性和 F1 測量祖先節點的恢復情況。類似的,COAT 相比基線方法有顯著的效果。特別是,由於 COAT 並不重點依賴 LLMs的推理能力,在較弱的 Llama-2-7b 中也有不錯的表現。相反,CoT 在這裡並沒能保持其在 AppleGastronome 上表現。

厄爾尼諾現象:案例分析

ENSO(厄爾尼諾-南方濤動)是發生在太平洋地區的一種重要氣候現象,其主要特徵是赤道太平洋海表溫度的週期性波動,即厄爾尼諾現象和拉尼娜現象。這些波動會對全球氣候產生重大影響,包括降水、風暴發展和溫度異常。因此,預測 ENSO 事件涉及海洋和大氣系統的複雜相互作用,因此仍然是一個開放的問題。

為了理解其機制,我們使用 NOAA(美國國家海洋和大氣管理局)的20世紀再分析V3資料集 [39] 進行分析。它包含了關於地球大氣的高維資訊,時間跨度從19世紀到21世紀初,空間覆蓋範圍精細,包括360×181個網格。我們使用這個資料集的月度資料。

NeurIPS 2024 | 用LLM探尋隱秘的因果世界


圖 14. COAT 探究 ENSO 因果機制.

如圖14所示,COAT識別出13個影響因素,它們的瞬時因果關係在圖7中進行了視覺化展示。目標變數是尼諾3區未來月平均海表溫度(SST)的變化,這是ENSO事件的重要指標。每個因素都是關於特定區域某一氣候測量的時間序列,該測量是在特定水平上的平均值。關於海平面氣壓、動量通量和雲量的路徑與現有文獻的理解相吻合 [40,41,42,43]。同時,它還提出了幾個在文獻中較少探討的假設路徑,例如南美洲沿海地區土壤溫度的路徑。詳細內容請參見論文附錄K。

結語

在本文中,我們提出了一種新的框架演算法 COAT,旨在將 LLMs 豐富的知識融入因果發現的pipeline中。我們的實驗結果表明,COAT 有效地擴充套件了因果發現的範圍,使其能夠處理非結構化資料,並透過從原始觀測中識別出有用的高階變數,為因果發現方法提供了支援。COAT 為構建用於發現的因果基礎模型開闢了新的路徑。關於未來研究方向的更詳細討論,請參見論文附錄B。

聯絡我們

歡迎查閱我們的論文以獲取研究工作的更多細節。如有任何疑問,請隨時聯絡我們。

如果您覺得我們的論文或程式碼庫有幫助,請考慮引用:

@inproceedings{causalcoat2024,
title={Discovery of the Hidden World with Large Language Models}, author={Chenxi Liu and Yongqiang Chen and Tongliang Liu and Mingming Gong and James Cheng and Bo Han and Kun Zhang},year={2024},booktitle={Proceedings of the Thirty-eighth Annual Conference on Neural Information Processing Systems}}

課題組介紹

香港浸會大學可信機器學習和推理課題組 (TMLR Group) 由多名青年教授、博士後研究員、博士生、訪問博士生和研究助理共同組成,課題組隸屬於理學院計算機系。課題組專攻可信表徵學習、可信基礎模型、基於因果推理的可信學習等相關的演算法,理論和系統設計以及在自然科學上的應用,具體研究方向和相關成果詳見本組 GitHub (
https://github.com/tmlr-group)。

課題組由政府科研基金以及工業界科研基金資助,如香港研究資助局傑出青年學者計劃,國家自然科學基金面上專案和青年專案,以及微軟、英偉達、位元組跳動、百度、阿里、騰訊等企業的科研基金。青年教授和資深研究員手把手帶,GPU 計算資源充足,長期招收多名博士後研究員、博士生、研究助理和研究實習生。此外,本組也歡迎自費的訪問博士後研究員、博士生和研究助理申請,訪問至少 3-6 個月,支援遠端訪問。有興趣的同學請傳送個人簡歷和初步研究計劃到郵箱 (bhanml@comp.hkbu.edu.hk)。

部分參考文獻

[1] Norwood Russell Hanson. Patterns of discovery : an inquiry into the conceptual foundations of science. Cambridge University Press, 1958.

[2] Thomas S. Kuhn and David Hawkins. The structure of scientific revolutions. American Journal of Physics, 31:554–555, 1963.

[3] Peter Spirtes, Clark Glymour, and Richard Scheines. Causation, Prediction, and Search, Second Edition. Adaptive computation and machine learning. MIT Press, 2000.

[4] Peter Spirtes, Clark Glymour, Richard Scheines, and Robert Tillman. Automated Search for Causal Relations: Theory and Practice, 2018.

[5] Matthew J. Vowels, Necati Cihan Camgoz, and Richard Bowden. D’ya like dags? a survey on structure learning and causal discovery. ACM Computing Survey, 55(4), 2022.

[6] Bernhard Scholkopf, Francesco Locatello, Stefan Bauer, Nan Rosemary Ke, Nal Kalchbrenner, Anirudh Goyal, and Yoshua Bengio. Towards causal representation learning. arXiv preprint, arXiv:2102.11107, 2021.

[7] Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. Language models are few-shot learners. In Advances in Neural Information Processing Systems, 2020.

[8] OpenAI. Chatgpt. https://chat.openai.com/chat/, 2022.

[9] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothee Lacroix, Baptiste Rozi `ere, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, and Guillaume Lample. Llama: Open and efficient foundation language models. arXiv preprint, arXiv:2302.13971, 2023.

[10] OpenAI. Gpt-4 technical report, 2023.

[11] Emre Kiciman, Robert Ness, Amit Sharma, and Chenhao Tan. Causal reasoning and large language models: Opening a new frontier for causality. arXiv preprint, arXiv:2305.00050, 2023.

[12] Sebastien Bubeck, Varun Chandrasekaran, Ronen Eldan, Johannes Gehrke, Eric Horvitz, EceKamar, Peter Lee, Yin Tat Lee, Yuanzhi Li, Scott M. Lundberg, Harsha Nori, Hamid Palangi, Marco Tulio Ribeiro, and Yi Zhang. Sparks of artificial general intelligence: Early experiments with GPT-4. arXiv preprint, arXiv:2303.12712, 2023.

[13] Cheng Zhang, Stefan Bauer, Paul Bennett, Jiangfeng Gao, Wenbo Gong, Agrin Hilmkil, Joel Jennings, Chao Ma, Tom Minka, Nick Pawlowski, and James Vaughan. Understanding causality with large language models: Feasibility and opportunities. arXiv preprint, arXiv:2304.05524, 2023.

[14] Ahmed Abdulaal, adamos hadjivasiliou, Nina Montana-Brown, Tiantian He, Ayodeji Ijishakin, Ivana Drobnjak, Daniel C. Castro, and Daniel C. Alexander. Causal modelling agents: Causal graph discovery through synergising metadata- and data-driven reasoning. In The Twelfth International Conference on Learning Representations, 2024.
[15] Matej Zecevic, Moritz Willig, Devendra Singh Dhami, and Kristian Kersting. Causal parrots: Large language models may talk causality but are not causal. Transactions on Machine Learning Research, 2023.

[16] Zhijing Jin, Yuen Chen, Felix Leeb, Luigi Gresele, Ojasv Kamal, Zhiheng LYU, Kevin Blin, Fernando Gonzalez Adauto, Max Kleiman-Weiner, Mrinmaya Sachan, and Bernhard Sch ̈olkopf. CLadder: A benchmark to assess causal reasoning capabilities of language models. In Thirty-seventh Conference on Neural Information Processing Systems, 2023.

[17] Zhijing Jin, Jiarui Liu, Zhiheng Lyu, Spencer Poff, Mrinmaya Sachan, Rada Mihalcea, Mona T. Diab, and Bernhard Sch ̈olkopf. Can large language models infer causation from correlation? arXiv preprint, arXiv:2306.05836, 2023.

[18] Yue Zhang, Yafu Li, Leyang Cui, Deng Cai, Lemao Liu, Tingchen Fu, Xinting Huang, Enbo Zhao, Yu Zhang, Yulong Chen, Longyue Wang, Anh Tuan Luu, Wei Bi, Freda Shi, and Shuming Shi. Siren’s song in the AI ocean: A survey on hallucination in large language models. arXiv preprint, arXiv:2309.01219, 2023.

[19] Chenhang Cui, Yiyang Zhou, Xinyu Yang, Shirley Wu, Linjun Zhang, James Zou, and Huaxiu Yao. Holistic analysis of hallucination in gpt-4v(ision): Bias and interference challenges. arXiv preprint, arXiv:2311.03287, 2023.

[20] Lukas Berglund, Meg Tong, Max Kaufmann, Mikita Balesni, Asa Cooper Stickland, Tomasz Korbak, and Owain Evans. The reversal curse: Llms trained on ”a is b” fail to learn ”b is a”. arXiv preprint, arXiv:2309.12288, 2023.

[21] Constantin F. Aliferis, Alexander Statnikov, Ioannis Tsamardinos, Subramani Mani, and Xenofon D. Koutsoukos. Local causal and markov blanket induction for causal discovery and feature selection for classification part i: Algorithms and empirical evaluation. Journal of Machine Learning Research, 11(7):171–234, 2010.

[22] Shantanu Gupta, David Childers, and Zachary Chase Lipton. Local causal discovery for estimating causal effects. In Conference on Causal Learning and Reasoning, volume 213, pages 408–447, 2023.

[23] Judea Pearl and Dana Mackenzie. The Book of Why: The New Science of Cause and Effect. Basic Books, Inc., USA, 1st edition, 2018.

[24] Timo Schick, Jane Dwivedi-Yu, Roberto Dess`ı, Roberta Raileanu, Maria Lomeli, Luke Zettlemoyer, Nicola Cancedda, and Thomas Scialom. Toolformer: Language models can teach themselves to use tools. arXiv preprint, arXiv:2302.04761, 2023.

[25] Zhiheng Xi, Wenxiang Chen, Xin Guo, Wei He, Yiwen Ding, Boyang Hong, Ming Zhang, Junzhe Wang, Senjie Jin, Enyu Zhou, Rui Zheng, Xiaoran Fan, Xiao Wang, Limao Xiong, Yuhao Zhou, Weiran Wang, Changhao Jiang, Yicheng Zou, Xiangyang Liu, Zhangyue Yin, Shihan Dou, Rongxiang Weng, Wensen Cheng, Qi Zhang, Wenjuan Qin, Yongyan Zheng, Xipeng Qiu, Xuanjing Huan, and Tao Gui. The rise and potential of large language model based agents: A survey. arXiv preprint, arXiv:2309.07864, 2023.

[26] Ruibo Tu, Kun Zhang, Bo C. Bertilson, Hedvig Kjellstrom, and Cheng Zhang. Neuropathic pain diagnosis simulator for causal discovery algorithm evaluation. In Advances in Neural Information Processing Systems, pages 12773–12784, 2019.

[39] Gilbert P Compo, Jeffrey S Whitaker, Prashant D Sardeshmukh, Nobuki Matsui, Robert J Allan, Xungang Yin, Byron E Gleason, Russell S Vose, Glenn Rutledge, Pierre Bessemoulin, et al. The twentieth century reanalysis project. Quarterly Journal of the Royal Meteorological Society, 137(654):1–28, 2011.

[40] Jakob Bjerknes. Atmospheric teleconnections from the equatorial pacific. Monthly weather review, 97(3):163–172, 1969.

[41] Chunzai Wang. Enso, atlantic climate variability, and the walker and hadley circulations. In The Hadley circulation: Present, past and future, pages 173–202. Springer, 2004.

[42] Yinge Liu, Ninglian Wang, Lingang Wang, Zhongming Guo, and Xiaobo Wu. Variation of cloud amount over china and the relationship with enso from 1951 to 2014. International Journal of Climatology, 36(8):2931–2941, 2016.

[43] Anoop Kumar Mishra. Investigating changes in cloud cover using the long-term record of precipitation extremes. Meteorological Applications, 26(1):108–116, 2019.

相關文章