RAG知識庫之針對長文件的Raptor索引

AiFly發表於2024-08-05

原文網址 : https://www.cnblogs.com/softlin/p/18339788

在現有的樸素RAG應用中其只是簡單的對文件進行分塊後儲存的向量庫中，然後在使用是根據提問問題從查詢向量庫中查詢相識度較高的文件快作為問題上下文提交到LLM讓其根據上下文去回答使用者所提問的問題。對於小文字可以直接將整個文件作為上下文或使用上篇文章所提到的多表示索引（Multi-representation indexing）進行Context上下文的最佳化處理。
樸素RAG分塊大小、文字疊加值設定都對向量檢索質量有著重要的影響，如文件太多可能會丟失長尾知識，缺乏對整個文件上下文的理解從而影響到RAG的質量；如針對某篇長小說文件提問主角出生經歷對其結尾的結局產生了什麼影響？通常小說前面幾張描述的是主角出生與經歷結尾描述的是其結局，文件過長不可能將整個文件作為問題上下文，異無法理解整篇文件，而只是使用 從向量庫中檢索到相識度最高的top K文字塊最為問題上下文；
Raptor使用樹形結構來捕獲文字的高層級和低層級細節，其對文字塊進行遞迴聚類、生成聚類的文字摘要總結自下而上生成一棵樹，所生成的 Raptor能夠作為問題上下文代表了不同級別的問題，可以回答不同層級的問題。

圖為Raptor所生成的樹結構，從下往上遞迴生成，此樹為三個層級從文字塊上一層級算起。文字1、文字2、文字3、文字4為葉子結點使用長文件分割而成，先對文字塊進行文字詞嵌入，然後使用UMAP對嵌入向量進行降維接著使用高斯混合模型（GMM） 對降維後的向量進行聚類，嵌入詞向量通常維度較高直接使用GMM可能會表現不佳所以須先 UMAP（Uniform Manifold Approximation and Projection）降維。聚類時使用軟聚類，因為每個文字塊通常包含多個主題資訊所以一個文字塊屬於多個聚類主題更加合理，保證總結摘要包含多個主題資訊。

1、對文件初始分割後的文字塊嵌入向量後進行降維後使用GMM聚類
2、合併同一個聚類中的文字塊使用LLM對該聚類文字塊進行總結摘要
3、如生成的聚類數大於1與層級小於指定層級則重複1、2、3、操作遞迴對上層級生成的總結摘要進行：嵌入、聚類、生成摘要；

此圖為Raptor演算法總體流程與層級1內部資料結構圖具體流程如下：

1、先將長文件分割為文字塊。
2、對文字塊進行此嵌入，UMAP降維後使用GMM生成聚類。
3、合併同聚類文字塊，使用LLM對每個聚類文字塊進行總結摘要。
4、根據條件判斷是否遞迴重複1、2、3流程。
5、Raptor樹摺疊展平獲取總結摘要列表寫入向量儲存。
6、原始文字塊寫入向量儲存。

而本篇文章所描述的RAPTOR(Recursive Abstractive Processing for Tree-Organized Retrieval)正能夠避免出現這種情況，可以說其是為了大文字而生的。Raptor透過遞迴的對長文字塊進行嵌入、聚類總結從而構造了一棵具有對該文件具有不同層級總結的樹結構從而能夠更全面的理解與整合該長文件資訊。

RAG知識庫最佳化之Rerank應用
2024-04-15
RAG知識庫的可靠性評估（二）
2024-04-01
《Wisdom Chain文件知識庫》之資產定義
2020-09-29
AI
LinkAI RAG知識庫平臺最佳化之路
2024-07-31
AI
【高階RAG技巧】在大模型知識庫問答中增強文件分割與表格提取
2024-04-18
大模型
基於AI知識庫RAG的綜合視窗系統
2024-09-15
AI
文件知識庫的演進和小結
2018-03-28
【TcaplusDB知識庫】TcaplusDB本地索引介紹
2021-11-22
索引
更強的RAG：向量資料庫和知識圖譜的結合
2024-10-10
資料庫
有沒有帶有本地Web介面的真正RAG知識庫？
2024-05-08
Web
【TcaplusDB知識庫】TcaplusDB全域性索引介紹
2021-11-22
索引
以文件為額外知識的生成式對話
2020-09-23
關於資料庫索引，必須掌握的知識點
2020-12-29
資料庫索引
MySQL 索引知識大全
2020-12-27
MySql索引
分散式文件儲存資料庫之MongoDB索引管理
2020-11-09
分散式資料庫MongoDB索引
知識增強的預訓練語言模型系列之KEPLER：如何針對上下文和知識圖譜聯合訓練
2022-01-24
模型
構建RAG應用-day06: 個人知識庫助手專案
2024-04-29
整合文字和知識圖譜嵌入提升RAG的效能
2024-05-03
我對《RAG/大模型/非結構化資料知識庫類產品》技術架構的思考、雜談
2024-07-03
大模型架構
索引的知識要點與操作
2024-04-28
索引
針對複雜的系統邏輯做總結記錄，有哪些易用的知識庫管理軟體？
2024-05-15
RAG文件解析利器：Deepdoc
2024-07-29
邀請函（針對全國會長的“知博會”邀請函文案）
2018-10-05
關於索引必須知道的知識
2021-01-03
索引
RAG 示例：使用 langchain、Redis、llama.cpp 構建一個 kubernetes 知識庫問答
2024-11-19
LangChainRedis
資料庫——對索引的理解
2020-09-26
資料庫索引
H2資料庫文件索引
2020-12-24
資料庫索引
MySQL 索引知識點總結
2020-12-15
MySql索引
索引基礎知識總結
2020-11-26
索引
Graph RAG: 知識圖譜結合 LLM 的檢索增強
2023-10-11
【INDEX】Oracle 索引常見知識梳理
2021-08-26
IndexOracle索引
【TcaplusDB知識庫】如何對陣列進行操作
2021-11-23
陣列
爬知識星球，製作自己的知識倉庫
2019-03-27
資料庫系列：字首索引和索引長度的取捨
2023-10-27
資料庫索引
知識圖譜之知識表示
2018-08-05
PgSql 知識庫
2024-03-28
SQL
知識雜庫
2024-03-18
知識庫終極指南：為什麼您的企業需要知識庫？
2023-11-01

RAG知識庫之針對長文件的Raptor索引

相關文章