論文閱讀筆記 --- 圖模互補:知識圖譜與大模型融合綜述 --- 按參考文獻整理
關於
- 首次發表日期:2024-09-13
- 論文原文連結:http://xblx.whu.edu.cn/zh/article/doi/10.14188/j.1671-8836.2024.0040/
- 將文章中的參考文獻整理一下,基本保持原文的目錄結構
引言、相關介紹
- Knowledge Graphs: Opportunities and Challenges
- 24 Mar 2023
- 傳統的圖譜構建、補全技術也面臨許多難題,如資料獲取、實體識別、知識抽取和實體消歧等。
- Knowledge Extraction with No Observable Data
- 6 September 2019
- https://github.com/snudatalab/KegNet
- 知識抽取是從各種資料來源中提取有價值的資訊,涵蓋了結構化和半結構化文字資料、非結構化文字資料等場景。在(半)結構化資料的知識抽取中,模型透過簡單的規則和固定的模式,從結構化資料(如關聯式資料庫)或半結構化資料(如維基百科)中實現知識抽取。而非結構化資料的知識抽取是抽取任務的難點,一般包括實體識別、關係抽取和事件抽取,需從文字中抽取原子資訊、實體間的語義關係等。例如生成網路KEGNET,在沒有可觀測資料的情況下進行知識抽取。
- A review: Knowledge reasoning over knowledge graph
- 1 March 2020
- 早期的知識圖譜推理基於一定的規則和限制,需要依賴規則、假設等前提條件。
- NeuInfer: Knowledge Inference on N-ary Facts
- January 2020
- https://github.com/gsp2014/NeuInfer
- 隨著機器學習的研究不斷深入,神經網路模型Neulnfer從主三元組和輔助描述構成的事實中進行未知元素推理。
- KnowledGPT: Enhancing Large Language Models with Retrieval and Storage Access on Knowledge Bases
- Submitted on 17 Aug 2023
- 知識圖譜可以提供一種解釋和推理知識的手段,用於探究大模型內部複雜的工作步驟和推理過程。例如個性化知識庫與大模型整合檢索框架KnowledGPT,提高了處理複雜搜尋和歧義的能力
- Joint Knowledge Graph and Large Language Model for Fault Diagnosis and Its Application in Aviation Assembly
- Date of Publication: 08 March 2024
- 知識圖譜與大模型融合是一個熱門研究領域
- Unifying Large Language Models and Knowledge Graphs: A Roadmap
- 提出了統一大模型與知識圖譜的前瞻性路線圖,總結了現有的大模型與知識圖譜的先進技術,並討論了大模型與知識圖譜融合的相關挑戰和發展方向。
大模型增強知識圖譜
增強知識圖譜構建
- ChatIE: Zero-Shot Information Extraction via Chatting with ChatGPT
- Submitted on 20 Feb 2023 (v1), last revised 27 May 2024 (this version, v2)
- https://github.com/cocacola-lab/chatie
- ChatIE將實體抽取、命令實體識別和事件抽取任務轉化為多回合問答問題,旨在將複雜的資訊抽取任務分解為多個簡單的子任務,並設計提示詞輸入ChatGPT,在多個資訊提取資料集上取得良好效果。
- 不涉及大模型微調任務
- 透過提示工程抽取資訊
- ChatExtract: Extracting Accurate Materials Data from Research Papers with Conversational Language Models and Prompt Engineering
- Submitted on 7 Mar 2023 (v1), last revised 21 Feb 2024 (this version, v3)
- ChatExtrac設計了一種強遷移性的資料提取方法,其核心透過構建一系列用於提取結構化資料的工程提示詞,實現大模型在零樣本學習的自動識別和提取資料功能,並且ChatExtract可以應用於各種對話式大模型,產生高質量的資料提取結果。
- 不涉及大模型微調任務
- 透過提示工程提取提示問題集
- AutoKG: LLMs for Knowledge Graph Construction and Reasoning: Recent Capabilities and Future Opportunities
- Submitted on 22 May 2023 (v1), last revised 18 Aug 2024 (this version, v3)
- 在處理知識密集型任務時,為了解決大模型無法捕捉到複雜的關係動態,AutoKG提出一種輕量級和高效的自動化知識圖構建方法。與傳統的透過語義相似性搜尋方式不同,AutoKG使用預訓練大模型構建簡化的知識圖譜。AutoKG構建的知識圖與傳統的知識圖結構不同,它以關鍵字作為節點,記錄各個節點間的相關性權重,AutoKG會根據關鍵詞之間的關聯程度建立知識圖中的邊。但AutoKG僅僅在外部知識庫的提取關鍵詞階段,利用大模型的資訊抽取能力,沒有在後續豐富知識圖階段結合大模型。
- 透過預訓練大模型提取關鍵詞
- Does Synthetic Data Generation of LLMs Help Clinical Text Mining?
- Submitted on 8 Mar 2023 (v1), last revised 10 Apr 2023 (this version, v2)
- 探索大模型在醫療保健領域實體抽取的效果,透過大模型生成大量高質量帶標籤的訓練資料,並將其作為提示資訊區域性微調大模型。實驗結果表明,微調大模型相較於通用大模型,效能有較好的提升。
- 利用ChatGPT生成標註樣本
- Extract, Define, Canonicalize: An LLM-based Framework for Knowledge Graph Construction
- Submitted on 5 Apr 2024
增強知識圖譜補全
知識圖譜的構建往往是不完備的,傳統的知識圖補全任務利用知識圖譜的結構資訊預測三元組中缺失的實體,但是在解決長尾實體時需要付出很高的代價。大模型可作為額外知識庫提取可信知識,完成知識圖譜的補全。
- Exploring Large Language Models for Knowledge Graph Completion
- Submitted on 26 Aug 2023 (v1), last revised 18 Feb 2024 (this version, v4)
- https://github.com/yao8839836/kg-llm
- 一種做法是直接將大模型應用在知識圖譜補全任務中,將三元組分類、關係預測和實體(連結)預測轉化為提示文字,透過提示大模型生成預測結果。例如文獻[67]構建了以三元組的實體和關係描述作為提示,在微調大模型KG-ChatGLM-6B和KG-LLaMA(7B和13B)上進行實驗,在補全任務中取得了較好的效能。
- 知識圖譜內嵌大模型
- KICGPT: Large Language Model with Knowledge in Context for Knowledge Graph Completion
- Submitted on 4 Feb 2024 (v1), last revised 23 Feb 2024 (this version, v2)
- https://github.com/weiyanbin1999/kicgpt
- 而另一種補全方法則是間接利用提示大模型。例如KICGPT整合大模型與傳統的結構感知模型(知識補全檢索器),檢索器對連結預測任務中缺失三元組進行查詢,根據分數排序生成候選實體列表,然後以結構知識編碼作為大模型情景學習示例,重新對候選實體列表進行排序。
- 大模型作為額外知識庫
- Contextualization Distillation from Large Language Model for Knowledge Graph Completion
- Submitted on 28 Jan 2024 (v1), last revised 24 Feb 2024 (this version, v3)
- https://github.com/david-li0406/contextulization-distillation
- 與之相似,文獻[69]透過提示大模型,為三元組生成出高質量的上下文描述,之後藉助傳統的補全方案訓練模型,間接透過大模型補全知識圖譜。
- 大模型作為訓練資料生成器
- Making Large Language Models Perform Better in Knowledge Graph Completion
- Submitted on 10 Oct 2023 (v1), last revised 14 Apr 2024 (this version, v2)
- https://github.com/zjukg/kopa
- 然而簡單的問答方式無法利用大模型的推理能力,缺乏對知識圖譜結構中實體和關係的描述,大模型可能無法理解知識圖譜的結構資訊。為實現更有效和準確的圖譜補全,學者們將知識圖譜中的實體、關係等結構資訊融入大模型,使大模型具有結構感知推理能力。文獻[70]提出了一種名為KoPA的知識字首介面卡,將知識圖譜結構資訊整合到大模型中。KoPA模型將知識圖譜結構資訊進行知識嵌入,並投射到文字空間。藉助KoPA生成的虛擬知識令牌(Token)增強輸入提示序列微調大模型,使得大模型能夠在結構感知狀態下解碼指令的答案,提高了大模型在知識圖譜補全任務中的效能。
- 知識圖譜內嵌大模型
增強知識圖譜推理
- 知識圖譜與大模型融合
- 2022年5月
- 以往的知識圖譜推理任務中,研究人員利用知識計算進行顯式的推理,藉助深度學習模型將實體和關係嵌入到高維向量空間實現推理[71]。不過該方法依賴於知識圖譜自身的知識,缺乏“世界知識”支撐,大模型的到來使得通識知識和知識圖譜聯合推理成為了可能。
- Evaluating and Enhancing Large Language Models for Conversational Reasoning on Knowledge Graphs
- Submitted on 18 Dec 2023 (v1), last revised 4 Feb 2024 (this version, v2)
- LLM-ARK [72] 不訪問模型引數直接利用大模型作為代理,將多跳推理任務表示為強化學習序列決策問題,透過全文字環境提示聚合多尺度輸入,使大模型獲得豐富資訊狀態的嵌入表示。具體步驟為:LLM-ARK將知識圖譜推理表述為一個由六元組 \((S, O, A, T, R, \gamma)\) 描述的馬爾可夫決策過程 (MDP)。其中, \(S\) 描述環境的狀態集合; \(O\) 用於觀察環境的完整狀態; \(A\) 表示下—步可能發生的行動; \(T\) 記錄狀態的更新; \(R\) 表示獎勵訊號; \(\gamma\)表示獎勵折扣因子,並且引入近端策略最佳化(PPO)強化學習演算法,使模型在推理任務中不斷學習。實驗表明,模型LLaMA-2-7B-ARK在二跳推理任務中表現出優越的效能。
- 大模型引導知識圖譜推理
- Complex Logical Reasoning over Knowledge Graphs using Large Language Models
- Submitted on 2 May 2023 (v1), last revised 31 Mar 2024 (this version, v3)
- https://github.com/akirato/llm-kg-reasoning
- LARK [73] 也利用大模型引導知識圖譜的複雜推理,不同的是它將複雜的知識圖譜推理轉化為上下文知識圖譜搜尋和邏輯查詢推理的兩個步驟組合,將多操作複雜邏輯查詢分解為大模型更擅長的單操作基本查詢,最後將檢索到的鄰域和分解的查詢轉換為大模型提示,獲取輸出結果;同時利用大模型評估最終答案集,LARK利用圖提取演算法和大模型雙方的優勢實現高效能的複雜推理。
- 大模型引導知識圖譜推理
- ChatRule: Mining Logical Rules with Large Language Models for Knowledge Graph Reasoning
- Submitted on 4 Sep 2023 (v1), last revised 22 Jan 2024 (this version, v3)
- https://github.com/RManLuo/ChatRule
- 在傳統演繹推理方向,推理規則挖掘存在資源成本較大、邏輯規則缺乏可擴充套件性、密集型規則搜尋效果不佳等問題,很難擴充套件到大規模的知識圖譜。而大模型能夠理解自然語言文字,利用內化到深度學習模型中的語義知識和結構資訊生成有意義的規則,結合知識圖譜的知識,實現輔助挖掘知識圖譜推理的規則及評估方案。例如規則生成器ChatRule[74],框架如圖3所示。ChatRule以知識圖中的規則例項作為大模型提示,生成一組粗糙的候選規則,設計邏輯規則評分器過濾不合要求的規則,最後採用思維鏈(CoT)[75]強化推理能力的大模型驗證規則的正確性,消除大模型潛在的虛假規則。
- 大模型作為規則生成器
增強知識圖譜問答
- Hic-KGQA: Improving multi-hop question answering over knowledge graph via hypergraph and inference chain
- 9 October 2023
- 檢索-推理結構
- 傳統基於知識圖譜的問答系統(KBQA),如檢索-推理結構[76]、基於語義解析框架[77],這些模型面臨需要大量訓練資料作支撐、構建過程對人類專家過度依賴,以及專業系統泛化能力不足等問題。
- Knowledge Graph Question Answering with semantic oriented fusion model
- 7 June 2021
- 基於語義解析框架
- 傳統基於知識圖譜的問答系統(KBQA),如檢索-推理結構[76]、基於語義解析框架[77],這些模型面臨需要大量訓練資料作支撐、構建過程對人類專家過度依賴,以及專業系統泛化能力不足等問題。
- Chain-of-Knowledge: Grounding Large Language Models via Dynamic Knowledge Adapting over Heterogeneous Sources
- Submitted on 22 May 2023 (v1), last revised 21 Feb 2024 (this version, v4)
- https://github.com/damo-nlp-sg/chain-of-knowledge
- 而圖模互補為知識圖譜問答系統創造新的機會,現今增強問答模型透過微調技術或直接應用大模型實現相關操作[78]
- LLM-assisted Knowledge Graph Engineering: Experiments with ChatGPT
- Submitted on 13 Jul 2023
- 更有學者探討了ChatGPT在SPARQL查詢任務中的潛力[79]
- Leveraging LLMs in Scholarly Knowledge Graph Question Answering
- Submitted on 16 Nov 2023
- https://github.com/huntila/scholarly-kgqa
- 文獻[80]提出了一種利用大模型在少樣本情況下回答學術知識圖譜問題的方法。具體步驟為:對於一個目標問題,模型透過分析訓練集中的問題,找到與測試問題相似的問題;以這些相似問題作為提示輸入大模型,生成目標問題的SPARQL查詢,最終透過查詢知識圖譜獲取答案。此過程不涉及大模型預訓練,減少了計算資源和時間的消耗。研究表明,該模型在SciQA-one挑戰基準中獲取較好的成績。
- 透過提示工程生成SPARQL查詢
- ChatKBQA: A Generate-then-Retrieve Framework for Knowledge Base Question Answering with Fine-tuned Large Language Models
- Submitted on 13 Oct 2023 (v1), last revised 30 May 2024 (this version, v2)
- https://github.com/lhrlab/chatkbqa
- ChatKBQA[81]則使用指令調優技術對開源大模型進行微調,使大模型獲得令人滿意的語義解析能力,利用大模型將新的自然語言問題轉換為根據候選的邏輯形式,最後透過檢索轉換邏輯形式中的實體資訊,生成相對應的SPARQL查詢。ChatKBQA將大模型強大的語義解析功能和知識圖譜可解釋性相結合,為圖模互補引入了一種新的思想圖查詢(GQoT)正規化,更好地利用外部知識提高問答的可解釋性,同時減少大模型的幻覺現象。
- 微調大模型生成SPARQL查詢
- Knowledgeable Preference Alignment for LLMs in Domain-specific Question Answering
- Submitted on 11 Nov 2023 (v1), last revised 10 Jun 2024 (this version, v3)
- https://github.com/zjukg/knowpat
- 與大模型對話增強路徑推理和檢索的方式不同,KnowPAT[82]提出了一個用於處理領域中特定問題回答的偏好對齊框架,透過知識偏好增強知識圖感知問答的全新方法。KnowPAT認為大模型應該利用領域知識來生成可靠的答案,KnowPAT構建了風格偏好集和知識偏好集。此外,KnowPAT設計了一個新的對齊目標,將大模型偏好與人類偏好對齊,為真實場景問答領域訓練一個更可靠和友好的問答系統。不過KnowPAT模型無法適用於某些領域,如在醫學領域、電腦科學領域,與原始模型相比KnowPAT的能力出現明顯的下降。
- 微調知識偏好的大模型
- Bring Your Own KG: Self-Supervised Program Synthesis for Zero-Shot KGQA
- Submitted on 14 Nov 2023 (v1), last revised 22 May 2024 (this version, v2)
- https://github.com/amazon-science/BYOKG-NAACL24
- BYOKG[83]設計一個通用的問題回答系統,旨在提高模型的通用性和便捷性,並且無需任何人工標註資料,就能夠在任何知識圖上執行。該系統受人類好奇心驅動學習的啟發,首先採用無監督學習方式,透過圖遍歷學習未知知識圖譜。並藉助大模型生成自然語言問題補充探索語料庫,最後使用檢索增強推理實現問答預測。
- 大模型作為補充語料庫
知識圖譜增強大模型
增強大模型自身效能
知識圖譜構建預訓練語料庫
- The Woman Worked as a Babysitter: On Biases in Language Generation
- Submitted on 3 Sep 2019 (v1), last revised 23 Oct 2019 (this version, v2)
- https://github.com/ewsheng/nlg-bias
- 研究表明[85],使用結構化的資料可以提高大模型的效能,有助於大模型確認事實性問題,從模型本身的角度避免幻覺與編造。因此在大模型預訓練階段,可將知識圖譜中的結構化資訊(實體、關係、連結路徑)作為訓練資料,增強大模型自身湧現能力。
- KELM語料庫: Knowledge Graph Based Synthetic Corpus Generation for Knowledge-Enhanced Language Model Pre-training
- Submitted on 23 Oct 2020 (v1), last revised 13 Mar 2021 (this version, v2)
- https://github.com/google-research-datasets/KELM-corpus
- 例如KELM語料庫、通用模型KGPT為大模型提供基於知識圖譜轉化的真實文字資訊。
- 例如文獻[17]設計TEKGEN語言化管道模型將實體子圖轉換為高質量的語料庫(KELM)。該管道包括啟發式對齊器、三元組轉換為文字的生成器、實體子圖建立器、刪除低質量輸出的後處理過濾器四個部分。透過使用序列到序列模型(T5模型[86])對訓練語料進行微調,生成高質量的自然語言文字。
- Text-to-Text Pre-Training for Data-to-Text Tasks
- Submitted on 21 May 2020 (v1), last revised 9 Jul 2021 (this version, v3)
- https://github.com/google-research-datasets/ToTTo
- 透過使用序列到序列模型(T5模型[86])對訓練語料進行微調,生成高質量的自然語言文字。
- KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation
- Submitted on 5 Oct 2020 (v1), last revised 11 Oct 2020 (this version, v2)
- 例如KELM語料庫、通用模型KGPT為大模型提供基於知識圖譜轉化的真實文字資訊。
- KGPT[18]是一種知識增強的預訓練語言模型,利用自動對齊知識圖譜和文字構建基於知識的語料庫KGTEXT,並選擇高度語義重疊的對齊策略去噪。同時模型本身具有極強的泛化能力,在零樣本和少樣本學習上表現出了較好的效能。
- ANALOGYKB: Unlocking Analogical Reasoning of Language Models with A Million-scale Knowledge Base
- Submitted on 10 May 2023 (v1), last revised 17 May 2024 (this version, v2)
- https://github.com/siyuyuan/analogykb
- 除此之外,預訓練語料庫還包括增強大模型類比推理能力的ANALOGYKB語料庫[87]。
知識圖譜內嵌大模型
- BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
- Submitted on 11 Oct 2018 (v1), last revised 24 May 2019 (this version, v2)
- https://github.com/google-research/bert
- 事實上,在BERT[88]和GPT為代表的預訓練模型釋出不久,不少學者已經開始研究知識增強型預訓練模型[89,90]。
- K-BERT: Enabling Language Representation with Knowledge Graph
- Submitted on 17 Sep 2019
- https://github.com/autoliuweijie/K-BERT
- https://github.com/alibaba/EasyNLP
- 例如將知識圖譜的三元組作為領域知識注入到句子的K-BERT[89],以及實體連結模型KnowBERT[90]。
- Knowledge Enhanced Contextual Word Representations
- Submitted on 9 Sep 2019 (v1), last revised 31 Oct 2019 (this version, v2)
- https://github.com/allenai/kb
- KnowBERT設計一種使用整合實體連結來檢索相關的實體嵌入的方法,以詞到實體的關注形式更新上下文詞的表示,並將多個知識庫嵌入到大規模模型中實現知識增強。
- ERNIE: Enhanced Language Representation with Informative Entities
- Submitted on 17 May 2019 (v1), last revised 4 Jun 2019 (this version, v3)
- https://github.com/thunlp/ERNIE
- 如今知識內嵌大模型通常是採用對齊技術將知識圖譜與自然語言相關聯。例如ERNIE[91]和ERNIE 3.0[92]。ERNIE是一種增強語言表示模型,透過構造結構化知識編碼模組,將知識納入語言理解,顯著提高知識驅動的效能。
- ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation
- Submitted on 5 Jul 2021
- https://github.com/PaddlePaddle/PaddleNLP/tree/develop/legacy/model_zoo/ernie-3.0
- ERNIE 3.0則是對其進行改進,同時融合自迴歸網路和自編碼網路,使用大量純文字和大規模知識圖譜進行訓練。
- SKILL: Structured Knowledge Infusion for Large Language Models
- Submitted on 17 May 2022
- 不同於上述模型,SKILL[93]設計一種直接在知識圖譜的事實三元組上訓練T5模型的方法,避免了知識圖模型之間的差異,使模型能夠輕易學習內嵌的事實化知識,應用在各種行業領域的問答工作中。
- KLMo: Knowledge Graph Enhanced Pretrained Language Model with Fine-Grained Relationships
- November 7–11, 202
- 此外,知識增強型大模型還包括整合實體間的細粒度關係的預訓練語言模型KLMo[94]
- KEPLER: A Unified Model for Knowledge Embedding and Pre-trained Language Representation
- Submitted on 13 Nov 2019 (v1), last revised 23 Nov 2020 (this version, v3)
- https://github.com/THU-KEG/KEPLER
- 統一知識嵌入和預訓練語言表示模型KEPLER
- Structured Knowledge Grounding for Question Answering
- Submitted on 17 Sep 2022 (v1), last revised 5 Jun 2023 (this version, v3)
- 將知識圖資料轉換為自然語言的嵌入模型[96]
- KnowGPT: Knowledge Graph based Prompting for Large Language Models
- Submitted on 11 Dec 2023 (v1), last revised 4 Jun 2024 (this version, v5)
- 基於ChatGPT的黑箱知識注入方法KnowGPT[97]
- Knowledge Graph-Enhanced Molecular Contrastive Learning with Functional Prompt
- 2022/6/28
- 文獻[98]提出一種基於功能提示的知識圖增強分子對比學習(KANO)方法,利用元素導向的圖增強對比學習框架實現化學領域專業知識圖譜的嵌入,同時知識圖譜還用於生成功能提示,幫助大模型在微調過程中更好地理解任務相關知識,併為預測結果提供合理的化學解釋。
- pdf: https://ojs.aaai.org/index.php/AAAI/article/download/20313/20072
增強大模型推理
- Large Language Models' Understanding of Math: Source Criticism and Extrapolation
- Submitted on 12 Nov 2023
- 大模型在處理結構化推理方面(如解決數學問題[99])表現不佳
- Tree of Thoughts: Deliberate Problem Solving with Large Language Models
- Submitted on 17 May 2023 (v1), last revised 3 Dec 2023 (this version, v2)
- https://github.com/princeton-nlp/tree-of-thought-llm
- 思維樹(ToT)
- Graph of Thoughts: Solving Elaborate Problems with Large Language Models
- Submitted on 18 Aug 2023 (v1), last revised 6 Feb 2024 (this version, v4)
- https://github.com/spcl/graph-of-thoughts
- 思維圖(GoT)
- CohortGPT: An Enhanced GPT for Participant Recruitment in Clinical Study
- Submitted on 21 Jul 2023
- 思維鏈是一種透過少樣本示例提示來增強大型模型推理任務的方法,它能夠透過生成中間推理步驟執行復雜的推理,例如CohortGPT[102]採用鏈式思維取樣策略輔佐領域知識圖增強大模型在醫學領域推理能力。
- Language Models Don't Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting
- Submitted on 7 May 2023 (v1), last revised 9 Dec 2023 (this version, v2)
- https://github.com/milesaturpin/cot-unfaithfulness
- 然而,思維鏈模型在使用偏見特徵時可能會導致推理結果受到影響[103],改變其原本的方向。
- JointLK: Joint Reasoning with Language Models and Knowledge Graphs for Commonsense Question Answering
- Submitted on 6 Dec 2021 (this version), latest version 2 May 2022 (v2)
- https://github.com/yueqing-sun/jointlk
- JointLK模型則是在QA-GNN模型上的最佳化,由於QA-GNN僅將QA上下文作為一個額外節點附加到知識圖,無法完成雙向互動。而JointLK透過密集的雙向注意力模組實現語言模型和知識圖譜的多步聯合推理。具體來說,JointLK模型將任務文字資訊與外部知識圖譜資料這兩種不同模態的資訊結合起來,設計了一個聯合推理模組,在每個問題標記和每個知識圖譜節點之間生成細粒度的雙向注意對映,實現不同模態資訊的融合。同時,JointLK模型設計了一個動態圖裁剪模組,透過移除無關的圖節點進行去噪,以確保模型正確地使用完整和適當的證據進行推理。實驗結果表明,JointLK在解決帶有否定詞的複雜推理問題方面表現出色。
- QA-GNN: Reasoning with Language Models and Knowledge Graphs for Question Answering
- Submitted on 13 Apr 2021 (v1), last revised 13 Dec 2022 (this version, v5)
- JointLK[104]和QA-GNN[105]則採用圖神經網路(GNN)和知識圖譜來提高模型推理能力。相較於以往文字與知識獨立的模式,QA-GNN將問題上下文與檢索到的知識連線起來,構成一個聯合圖。
- RoBERTa: A Robustly Optimized BERT Pretraining Approach
- Submitted on 26 Jul 2019
- https://github.com/facebookresearch/fairseq
- 實驗表明,相較於比RoBERTa[106],QA-GNN表現出更好的效果。
- Deep Bidirectional Language-Knowledge Graph Pretraining
- Submitted on 17 Oct 2022 (v1), last revised 19 Oct 2022 (this version, v2)
- https://github.com/michiyasunaga/dragon
- DRAGON[107]模型在文字和知識圖的深度雙向聯合(QA-GNN)的基礎上,採用自監督學習策略。透過統一兩個自我監督的推理任務,包括掩碼語言建模(MLM)和連結預測,DRAGON模型實現了對文字和知識圖的全面預訓練。這種自監督學習策略使得模型能夠更好地理解文字和知識圖之間的關係,從而更準確地進行推理。
增強大模型檢索
- Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
- Submitted on 22 May 2020 (v1), last revised 12 Apr 2021 (this version, v4)
- 知識圖譜透過檢索增強大模型是自然語言處理領域備受關注的研究方向之一。一種代表性的方法是檢索增強生成(Retrieval-Augmented Generation,RAG)[108]。大模型自身無法精確處理知識密集型任務,也無法探究資訊的來源和知識的更新,RAG旨在透過外部真實知識向量索引來解決大模型無法自我更新知識的問題。RAG是一種包含查詢編碼器(Query Encoder)、預訓練檢索器(Retriever)和預訓練的生成式模型相結合的端到端訓練方法。具體步驟為透過文件檢索器檢索潛在資訊,將潛在文字作為輸入資訊的附加上下文執行大模型,最終獲得文字目標序列。
- LaMDA: Language Models for Dialog Applications
- Submitted on 20 Jan 2022 (v1), last revised 10 Feb 2022 (this version, v3)
- 與之類似,LaMDA[39]模型包括LaMDA-Base和LaMDA-Research模型,在執行過程中,首先呼叫LaMDA-Base模型生成輸出,但是輸出結果可能存在不真實資訊,模型會繼續呼叫LaMDA-Research與資訊檢索系統進行多次互動,直到LaMDA-Research響應使用者輸出,將無法驗證的結果進行替換。相較於RAG,LaMDA的檢索範圍較小,但檢索結果的精確度相對較高。
- Improving language models by retrieving from trillions of tokens
- Submitted on 8 Dec 2021 (v1), last revised 7 Feb 2022 (this version, v3)
- 為了解決大模型記憶體開銷過大的問題,RETRO[109]透過從大型語料庫中檢索相似文件塊來增強語言模型,在處理下游知識密集任務時,小引數模型效能達到了GPT-3的表現效果。RAG[108]和RETRO[109]二者都需單獨訓練檢索模型,並且在面對超大規模和更新性強的外部文件時,可能會導致計算成本的增加。
- Towards Verifiable Generation: A Benchmark for Knowledge-aware Language Model Attribution
- Submitted on 9 Oct 2023 (v1), last revised 23 May 2024 (this version, v2)
- 在檢索的基礎上,KaLMA[110]構建了一個基於檢索、重新排序和生成的管道,檢索增強大模型的知識感知屬性,同時提出“Conscious Incompetence”的設定,即當語言模型意識到自己無法提供某些知識,會在文字中插入“[NA]”標記,表示該部分知識無法被驗證。實驗結果表明,KaLMA[110]在提高大模型的引用生成能力和檢索準確性方面具有一定的潛力。
- Enhancing Multilingual Language Model with Massive Multilingual Knowledge Triples
- Submitted on 22 Nov 2021 (v1), last revised 19 Oct 2022 (this version, v4)
- https://github.com/ntunlp/kmlm
- 與上述不同,KMLM[111]是一種直接基於多語言三元組的知識增強型預訓練方法,將三元組資訊以程式碼形式轉化為多語言文字,同時在預訓練過程中附加文字的結構資訊,實驗結果表明,KMLM提高了隱性知識的推理能力,在跨語言知識密集型任務(事實知識檢索)中表現出顯著的效能改進。
增強大模型可解釋性
- LMExplainer: Grounding Knowledge and Explaining Language Models
- Submitted on 29 Mar 2023 (v1), last revised 16 Jul 2024 (this version, v3)
- 傳統解決模型可解釋性問題的方法集中於模型內在和事後的解釋,如可解釋模型結構和事後特徵選擇。然而,這些方法在解釋模型決策過程方面存在不足。近期研究透過多例項學習、注意矩陣和外部知識結構等手段提供了文字解釋,但仍未完全理解模型的推理過程。LMExplainer[112]設計了一個知識增強的解釋模組,將知識圖譜與大模型相結合,採用知識圖譜和圖注意力網路(GAT)[113]提取大模型的關鍵決策訊號,提供了全面、清晰、可理解的文字解釋。其過程如圖4所示,透過大模型生成輸入語言的嵌入,同時從知識圖譜中檢索到相關知識以構建子圖,以語言嵌入和子圖作為圖神經網路的輸入,透過圖注意力網路來獲取注意力分數,生成最終的預測結果和決策的解釋過程。實驗結果顯示,LMExplainer不僅提高了模型效能,並且可以更準確地解釋模型推理過程。
- Graph Attention Networks
- Submitted on 30 Oct 2017 (v1), last revised 4 Feb 2018 (this version, v3)
- LMExplainer[112]設計了一個知識增強的解釋模組,將知識圖譜與大模型相結合,採用知識圖譜和圖注意力網路(GAT)[113]提取大模型的關鍵決策訊號,提供了全面、清晰、可理解的文字解釋。
- XplainLLM: A QA Explanation Dataset for Understanding LLM Decision-Making
- Submitted on 15 Nov 2023
- 同樣的,XplainLLM[114]是首個捕捉大模型推理元素並透過人類可理解的解釋呈現決策過程的資料集,滿足大模型在決策過程中透明度、可解釋性和可理解性的需求。透過結合知識圖和圖注意力網路,構建一個問題-答案-解釋(QAE)三元組,將大模型推理過程與知識圖譜中實體和關係相連線的。評估結果顯示,使用解釋後的大模型效能提高2.4%,並且在問答任務中具有更出色的可解釋性和理解效果。
圖模互補應用與展望
圖模互補應用
- Large Language Models for Biomedical Knowledge Graph Construction: Information extraction from EMR notes
- Submitted on 29 Jan 2023 (v1), last revised 9 Dec 2023 (this version, v2)
- 臨床診斷案例、電子健康記錄等各類患者的醫療記錄是計算機醫療領域的重要知識來源。大模型能夠利用這些冗餘的記錄自動構建醫學知識圖譜[115]
- Leveraging A Medical Knowledge Graph into Large Language Models for Diagnosis Prediction
- Submitted on 28 Aug 2023
- 同時,圖模互補系統還能夠推理預測臨床案例,推進醫療診斷決策系統的發展[116]
- GraphCare: Enhancing Healthcare Predictions with Personalized Knowledge Graphs
- Submitted on 22 May 2023 (v1), last revised 17 Jan 2024 (this version, v3)
- 如GraphCare[117]透過提示工程從豐富的臨床知識中抽取知識,為患者構建個性化醫療知識圖譜,並利用雙注意增強(BAT)圖神經網路(GNN)模型進行下游任務預測。
- GPT-RE: In-context Learning for Relation Extraction using Large Language Models
- Submitted on 3 May 2023 (v1), last revised 9 Dec 2023 (this version, v3)
- 對於更復雜實體關係抽取,GPT-RE[118]採取任務感知檢索和金標籤(gold label)誘導推理的方法,實現關係抽取的情境學習。
- GPT-RE採用了兩種任務感知檢索方法,透過編碼表示強調文字中的實體與關係資訊,接著透過金標誘導推理方法(類似思維鏈)注入推理邏輯,獲取大量輸入與標籤的對齊演示案例,最後透過提示大模型實現關係抽取的高精確性和可解釋性。
- REALM: RAG-Driven Enhancement of Multimodal Electronic Health Records Analysis via Large Language Models
- Submitted on 10 Feb 2024
- 此外,為了避免幻覺現象,REALM模型[119]提出一種檢索增強生成(RAG)驅動框架,能夠從各種非結構化資料(臨床記錄和電子健康記錄)中提取實體,並與外部專業知識圖譜進行匹配,以確保模型輸出結果的一致性和準確性。
- Exploring the Feasibility of ChatGPT for Event Extraction
- Submitted on 7 Mar 2023 (v1), last revised 9 Mar 2023 (this version, v2)
- 事件抽取
- ChatGPT Evaluation on Sentence Level Relations: A Focus on Temporal, Causal, and Discourse Relations
- Submitted on 28 Apr 2023 (v1), last revised 26 Jan 2024 (this version, v3)
- 時間關係探索
- Zero-shot Temporal Relation Extraction with ChatGPT
- Submitted on 11 Apr 2023
- 時間關係提取
- Temporal Knowledge Graph Forecasting Without Knowledge Using In-Context Learning
- Submitted on 17 May 2023 (v1), last revised 20 Oct 2023 (this version, v3)
- 但是由於時間知識圖譜(TKG)是一個複雜時態多關係圖資料結構,大模型無法直接理解結構化的時間關係資料,在時間知識圖譜的預測方面具備一定潛力[123]。
- GenTKG: Generative Forecasting on Temporal Knowledge Graph with Large Language Models
- Submitted on 11 Oct 2023 (v1), last revised 16 Apr 2024 (this version, v5)
- https://github.com/mayhugotong/gentkg
- 如GenTKG[124]將指令調優大模型引入時間知識圖譜,採用基於時間規則的檢索策略實現時間關係的預測,且效能優於傳統的規則式和嵌入式方案。同時GenTKG透過輕量級的指令調優技術,極大程度地降低了訓練成本。
- Towards Benchmarking and Improving the Temporal Reasoning Capability of Large Language Models
- Submitted on 15 Jun 2023 (v1), last revised 27 Jun 2023 (this version, v2)
- https://github.com/damo-nlp-sg/tempreason
- 而大模型在時間知識推理方面[125]也面臨著一些問題,大模型的時間推理能力會因時間資訊的變化而產生偏差。
- Back to the Future: Towards Explainable Temporal Reasoning with Large Language Models
- Submitted on 2 Oct 2023 (v1), last revised 8 Oct 2023 (this version, v2)
- 為了解決這一問題,文獻[126]利用時間知識圖譜和大模型融合設計一個複雜時間推理的系統,該系統透過學習時間推理的上下文,實現對於未來事件發生的可解釋預測。同時,該文獻提出一個可解釋時間推理(ExpTime)的多源指令調整資料集,其構架過程如圖5(b)所示,藉助時間知識圖資料集及其時間推理路徑完成構建任務。實驗表明,該資料集能夠提高大模型(LlaMA2)的事件預測和解釋推理能力。
其他
大型開放知識庫:
- YAGO
- DBpedia
- Freebase
- Wikidata
開源倉庫:
- https://github.com/thunlp/OpenKE
- An Open-Source Package for Knowledge Embedding (KE)
- https://github.com/tatsu-lab/stanford_alpaca
- https://github.com/facebookresearch/fairseq
- https://github.com/alibaba/EasyNLP
- https://github.com/PaddlePaddle/PaddleNLP