python讀取檔案指定行的三種方法

小小程序员ol發表於2024-04-28

1.行遍歷實現

在python中如果要將一個檔案完全載入到記憶體中，透過file.readlines()即可，但是在檔案佔用較高時，我們是無法完整的將檔案載入到記憶體中的，這時候就需要用到python的file.readline()進行迭代式的逐行讀取：

filename = 'hello.txt'
 
with open(filename, 'r') as file:
    line = file.readline()
    counts = 1
    while line:
        if counts >= 50000000:
            break
        line = file.readline()

        counts += 1

這裡我們的實現方式是先用一個with語句開啟一個檔案，然後用readline()函式配合while迴圈逐行載入，最終透過一個序號標記來結束迴圈遍歷，輸出檔案第50000000行的內容。該程式碼的執行效果如下：

dechin@ubuntu2004:~/projects/gitlab/dechin/$ time python3 get_line.py 
 
real    0m10.359s
user    0m10.062s

sys     0m0.296s

可以看到這裡的耗時為10s多一些。

2.linecache實現

雖然在python的readline函式中並沒有實現讀取指定行內容的方案，但是在另一個庫linecache中是實現了的，由於使用的方式較為簡單，這裡直接放上程式碼示例供參考：

filename = 'hello.txt'
 
import linecache

text = linecache.getline(filename, 50000000)

該程式碼的執行結果如下：

dechin@ubuntu2004:~/projects/gitlab/dechin/$ time python3 get_line.py 
 
real    0m11.904s
user    0m5.672s

sys     0m6.231s

雖然在實現方式上簡化了許多，但是我們發現這個實現的用時超過了11s，還不如我們自己手動實現的迴圈遍歷方案。因此如果是對於效能有一定要求的場景，是不建議採用這個方案的。

3.命令列sed獲取

我們知道用Linux系統本身自帶的sed指令也是可以獲取到檔案指定行或者是指定行範圍的資料的，其執行指令為：sed -n 50000000p filename即表示讀取檔案的第50000000行的內容。同時結合python的話，我們可以在python程式碼中執行系統指令並獲取輸出結果：

filename = 'hello.txt'
 
import os

result = os.popen('sed -n {}p {}'.format(50000000, filename)).read()

需要注意的是，如果直接執行os.system()是沒有返回值的，只有os.popen()是有返回值的，並且需要在尾巴加上一個read()的選項。該程式碼的執行結果如下：

dechin@ubuntu2004:~/projects/gitlab/dechin/$ time python3 get_line.py 
 
real    0m2.532s
user    0m0.032s

sys     0m0.020s

可以看到直接使用sed指令的執行速度很快，但是用這種方法並不是一本萬利的，比如以下這個例子：

filename = 'hello.txt'
 
import os

#學習中遇到問題沒人解答？小編建立了一個Python學習交流群：153708845
result = os.popen('sed -n {}p {}'.format(500, filename)).read()

我們把讀取第50000000行內容改為讀取第500行的內容，再執行一次程式：

dechin@ubuntu2004:~/projects/gitlab/dechin/$ time python3 get_line.py 
 
real    0m2.540s
user    0m0.037s

sys     0m0.013s

然而我們發現這個速度並沒有因為要讀取的行數減少了而變少，而是幾乎保持不變的。

總結

本文透過4個測試案例分析了在python中讀取檔案指定行內容的方案，並得到了一些執行耗時的資料。從需求上來說，如果是對於小規模的資料，比如幾百行規模的資料，建議使用readline迴圈遍歷來操作，速度也相當不錯，或者是linecache中的函式實現也是可以的，甚至可以直接用readlines將整個文字內容載入到記憶體中。但是對於資料規模比較大的場景，比如超過了千萬行的級別，那麼使用sed指令的方式對指定行內容進行讀取的方式，應該是所有方式中最快速的。

Python逐行讀取檔案常用的三種方法！
2023-11-09
Python
python讀取大檔案的幾種方法
2021-03-01
Python
Python最常用的讀取指定路徑檔案的方法！
2024-01-09
Python
python讀取文字檔案內容的方法主要分為哪三種？
2022-05-23
Python
python讀取yaml配置檔案的方法
2024-04-25
PythonYAML
Python 高階技巧：深入解析讀取 Excel 檔案的多種方法
2024-10-05
PythonExcel
python檔案讀取 readlines()方法之坑
2021-09-09
Python
Python|讀、寫Excel檔案(三種模組三種方式)
2019-02-16
PythonExcel
教大家python讀取一行一行檔案內容的方法
2021-07-16
Python
C#讀取指定json配置檔案
2024-07-25
C#JSON
Python實用方法之讀取本地檔案
2021-09-11
Python
怎麼透過Python獲取檔案指定行的內容？
2021-09-11
Python
python程式碼讀取遠端檔案的方法--paramiko
2019-04-15
Python
python讀取大檔案
2018-07-04
Python
python小白檔案讀取
2020-09-28
Python
python 讀取文字檔案
2024-08-10
Python
Qt中用C++呼叫Python檔案的三種方法
2018-03-27
QTC++Python
Android讀取配置檔案的方法
2019-08-18
Android
php讀取檔案的幾種方式
2021-09-09
PHP
Python獲取list中指定元素索引的兩種方法
2024-07-24
Python索引
python中讀取檔案的read、readline、readlines方法區別
2018-11-09
Python
大神教你python 讀取檔案並把矩陣轉成numpy的兩種方法
2020-07-12
Python矩陣
python如何讀取大檔案
2021-09-11
Python
EasyExcel庫來讀取指定Excel檔案中的資料
2024-03-28
Excel
Python中檔案的讀寫、寫讀和追加寫讀三種模式的特點
2019-02-16
Python模式
ArcEngine 開啟AutoCAD檔案的幾種方法與讀取CAD資料的方法
2020-10-21
[work] python讀取txt檔案最後一行
2019-01-11
Python
Spring boot 讀取properties檔案的四種方式
2018-09-30
Spring Boot
Spring Boot讀取配置檔案的幾種方式
2020-07-08
Spring Boot
Python 讀取HDF5檔案
2020-11-15
Python
python怎麼讀取配置檔案
2021-09-11
Python
python解壓並讀取檔案
2020-11-23
Python
教你一招！Python讀取檔案內容為字串的方法
2021-09-11
Python字串
用 PHP 讀取檔案的正確方法
2020-04-07
PHP
python儲存檔案的幾種方法
2019-02-16
Python
Python中讀寫Parquet檔案的方法
2024-05-13
Python
Java中獲取JAR檔案中資源路徑的三種方法
2024-04-05
JavaJAR
python獲取程式執行檔案路徑的方法其一
2020-03-17
Python

python讀取檔案指定行的三種方法

1.行遍歷實現

2.linecache實現

3.命令列sed獲取

總結

相關文章