RAG學習--pdf讀取與切割

kin2022發表於2024-05-12

原文網址 : https://www.cnblogs.com/goldball/p/18181318

RAG流程：

線下：

1、文件載入

2、文件切分

3、向量化

4、向向量資料庫灌資料

線上：

1、獲取使用者問題

2、使用者問題向量化

3、檢索向量資料庫

4、將檢索結果和問題填充到pomp模板

5、用最終獲得的pomp呼叫LLM

6、最終由LLM生成回覆

本篇完成文件載入與切割(pdf載入與切割)

1、文件載入

載入PDF：

llama2.pdf

安裝pdf讀取包

pip install pdfminer.six

from pdfminer.high_level import extract_pages

from pdfminer.layout import LTTextContainer

#從pdf中提取文字extract_text_from_pdf

def extract_text_from_pdf(pdf_path,page_numbers=None,min_line_length =1):

paragraphs =[]

buff =''

full_text = ''

for i , page_layout in enumerate(extract_pages(pdf_path)):

if page_numbers is not None and i not in page_numbers:

continue

for element in page_layout:

if isinstance(element,LTTextContainer):

full_text += element.get_text() +'\n'

lines = full_text.split('\n')

for line in lines:

if len(line) >= min_line_length:

buff += (' '+line) if not line.endswith('-') else line.strip('-')

elif buff:

paragraphs.append(buff)

buff = ''

if buff:

paragraphs.append(buff)

return paragraphs

#以上是pdf讀取方法extract_text_from_pdf

#呼叫程式,並顯示前四行

paragraphs = extract_text_from_pdf('llama2.pdf',min_line_length=4)

for page in paragraphs[:4]:

print(page+'\n')

在terminal執行：py .\pdfread.py顯示結果

pdf載入與切割完畢。

golang讀取pdf
2018-10-18
Golang
python 讀取PDF表格
2020-09-25
Python
spark學習筆記--資料讀取與儲存
2018-07-09
Spark筆記
Java 讀取PDF中的表格
2021-10-22
Java
PTA (學生成績讀取與排序)
2020-10-28
排序
Java 建立、填充、讀取PDF表單域
2020-03-02
Java
Python如何讀取pdf中的圖片
2021-09-11
Python
LLM學習(四)——構建 RAG 應用
2024-04-24
Java 讀取PDF中的文字和圖片
2019-07-18
Java
Java RMI學習與解讀（一）
2021-10-27
Java
Java RMI學習與解讀（二）
2021-10-29
Java
《深度學習之TensorFlow》pdf
2019-12-17
深度學習
【讀書1】【2017】MATLAB與深度學習——深度學習(2)
2018-11-09
Matlab深度學習
MATLAB學習之gif圖片讀取顯示
2020-10-23
Matlab
Javascript快取投毒學習與實戰
2020-08-19
JavaScript快取
簡單介紹python深度學習tensorflow例項資料下載與讀取
2022-07-17
Python深度學習
TensorFlow高效讀取資料的方法——TFRecord的學習
2019-07-20
go學習之檔案讀取問題（需更新）
2020-04-07
Go
Magic-PDF：端到端PDF文件解析神器構建高質量RAG必備！
2024-07-31
【小白學PyTorch】17 TFrec檔案的建立與讀取
2020-10-03
PyTorch
JavaScript 建立與讀取cookie
2019-08-05
JavaScriptCookie
RTMP協議學習——Message與Chunk解讀
2023-12-02
協議
Java PDF書籤——新增、編輯、刪除、讀取書籤
2021-09-09
Java
Grafana 任意檔案讀取漏洞（CVE-2021-43798）學習
2021-12-12
Grafana
2020年熔化焊接與熱切割找答案及熔化焊接與熱切割模擬試題
2020-10-19
2020年熔化焊接與熱切割考試題庫及熔化焊接與熱切割找答案
2020-11-21
PyMuPDF框架學習（pdf文字處理）
2024-05-09
框架
C語言課程設計與學習指導張冬梅pdf
2018-07-31
C語言
JavaScript 寫入與讀取cookie
2019-08-05
JavaScriptCookie
文字識別（三）--文字定位與切割
2019-02-18
RAG工程實踐攔路虎之一：PDF格式解析雜談
2024-07-08
精讀《利用 GPT 解讀 PDF》
2023-04-17
GPT
Blazor Pdf Reader PDF閱讀器元件更新
2023-01-25
Blazor元件
爬蟲學習日記（十二）解析PDF
2019-03-18
爬蟲
Service Worker學習與實踐（一）——離線快取
2018-09-18
快取
PDF閱讀器不只閱讀註釋，還有轉換與編輯
2019-03-20
2020年熔化焊接與熱切割考試題及熔化焊接與熱切割作業考試題庫
2020-11-06
2020年熔化焊接與熱切割考試內容及熔化焊接與熱切割模擬考試題
2020-10-08

RAG學習--pdf讀取與切割

相關文章