Python提取文字檔案（.txt）資料的方法

疯狂学习GIS發表於2024-05-24

原文網址 : https://www.cnblogs.com/fkxxgis/p/18210950

本文介紹基於Python語言，遍歷資料夾並從中找到檔名稱符合我們需求的多個.txt格式文字檔案，並從上述每一個文字檔案中，找到我們需要的指定資料，最後得到所有文字檔案中我們需要的資料的合集的方法。

首先，我們來明確一下本文的具體需求。現有一個資料夾，其中含有大量的.txt格式文字檔案，如下圖所示；同時，這些文字檔案中，檔名中含有Point欄位的，都是我們需要的檔案，我們接下來的操作都是對這些我們需要的檔案而言的；而不含有Point這個欄位的，那麼我們就不需要。

隨後，在每一個我們需要的文字檔案（也就是檔名中含有Point欄位的檔案）中，都具有著如下圖所示的資料格式。我們希望，基於第1列（紅色框內所示的列）資料（這一列資料表示波長），找到幾個指定波長資料所對應的行，並將這些行所對應的後5列資料都儲存下來。

此外，前面也提到，檔名中含有Point欄位的文字檔案是有多個的；因此希望將所有文字檔案中，符合要求的資料行都儲存在一個變數，且儲存的時候也將檔名稱儲存下來，從而知道儲存的每一行資料，具體是來自於哪一個檔案。

知道了需求，我們就可以開始程式碼的書寫。其中，本文用到的具體程式碼如下所示。

# -*- coding: utf-8 -*-
"""
Created on Fri Jul  7 23:39:43 2023

@author: fkxxgis
"""

import os
import pandas as pd

original_file_folder = "E:/03_Experiment/202306HuaiLai/HuaiLai_20230627_SpectralCurve"
result_file_path = "E:/03_Experiment/202306HuaiLai/HuaiLai_20230627_SpectralCurve/Result.csv"
target_wavelength = [490, 561, 665, 702, 863]

result_all_df = pd.DataFrame()

for file in os.listdir(original_file_folder):
    if file.endswith(".txt") and file[3] == "P":
        file_path = os.path.join(original_file_folder, file)
        df = pd.read_csv(file_path, delimiter = "\t")
        select_df = df[df["Wavelength"].isin(target_wavelength)]
        select_df.insert(0, "file_name", file)
        
        data_append = select_df.iloc[1 : , 2 : ]
        result_df = pd.DataFrame()
        result_df = pd.concat([select_df.iloc[[0]].reset_index(drop = True), pd.DataFrame(data_append.values.flatten()).transpose()], axis = 1)
        result_df.columns = range(result_df.shape[1])
        result_all_df = pd.concat([result_all_df, result_df], axis = 0, ignore_index = True)

上述程式碼具體的含義如下所示。

首先，我們匯入了需要使用的庫——os庫用於檔案操作，而pandas庫則用於資料處理；接下來，我們定義了原始資料夾路徑 original_file_folder 和結果檔案路徑 result_file_path。然後，我們建立一個空的DataFrame物件result_all_df，用於儲存所有處理後的結果。

再接下來，透過使用os.listdir()函式，我們遍歷指定資料夾中的檔案。我們透過條件過濾，只選擇以.txt結尾且檔名的第四個字母是P的檔案——這些檔案就是我們需要的檔案。隨後，對於每個滿足條件的檔案，我們構建了檔案的完整路徑file_path，並使用pd.read_csv()函式讀取檔案的內容。在這裡，我們使用製表符作為分隔符，並將資料儲存在DataFrame物件df中。

然後，我們根據給定的目標波長列表target_wavelength，使用條件篩選出包含目標波長的資料行，並將檔名插入到選定的DataFrame中，即在第一列插入名為file_name的列——這一列用於儲存我們的檔名。

接下來，在我們已經提取出來的資料中，從第二行開始，提取每一行從第三列到最後一列的資料，將其展平為一維陣列，從而方便接下來將其放在原本第一行的後面（右側）。然後，我們使用pd.DataFrame()函式將展平的陣列轉換為DataFrame物件；緊接著，我們使用pd.concat()函式將原本的第一行資料，和展平後的資料按列合併（也就是放在了第一行的右側），並將結果儲存在result_df中。

最後，我們將每個檔案的處理結果按行合併到result_all_df中，透過使用pd.concat()函式，指定axis=0表示按行合併。由於我這裡的需求是，只要保證文字檔案中的資料被提取到一個變數中就夠了，所以沒有將結果儲存為一個獨立的檔案。如果需要儲存為獨立的.csv格式檔案，大家可以參考文章多次複製Excel符合要求的資料行：Python批次實現。

執行上述程式碼，即可看到儲存我們提取出來的資料的結果的變數result_all_df的具體情況如下圖所示。可以看到，已經儲存了我們提取出來的具體資料，以及資料具體來原始檔的檔名稱；並且從一個文字檔案中提取出來的資料，都是儲存在一行中，方便我們後期的進一步處理。

至此，大功告成。

python如何將資料寫入本地txt文字檔案
2021-09-11
Python
如何用Python從PDF檔案中提取文字詞彙
2018-12-18
Python
SQLSERVER匯出TXT文字檔案，ORACLE SQL LOADER匯入TXT文字檔案
2018-05-15
SQLServerOracle
python的應用 | 提取指定資料夾下所有PDF檔案的頁數
2024-03-27
Python
流量中提取檔案的若干種方法
2021-12-27
python 修改文字檔案
2024-07-30
Python
python 網頁文字提取
2018-07-25
Python網頁
python處理txt檔案
2020-10-10
Python
[20190410]dg建立臨時表檔案資料檔案.txt
2019-04-10
python列出資料夾所有檔案有哪些方法？
2021-09-11
Python
python 讀取文字檔案
2024-08-10
Python
[20221014]資料檔案2的小疑問.txt
2022-10-14
[20201218]資料檔案OS頭的修復.txt
2020-12-18
python實現圖書管理系統——通過excel檔案或者TXT檔案存放資料
2020-10-28
PythonExcel
python如何開啟帶變數名的txt檔案並寫入資料
2021-09-11
Python變數
Python提取文字指定內容
2024-03-26
Python
[20211020]windows新建文字檔案帶日期.txt
2021-10-20
Windows
[20181102]資料檔案改名與awr.txt
2018-11-02
[20230224]改動資料檔案小技巧.txt
2023-02-24
python怎麼建立文字檔案
2021-09-11
Python
python怎麼讀取txt檔案第二行-Python：如何選擇文字檔案的第一行，以及第二行……？...
2020-11-01
Python
文字識別：關鍵資訊提取的3種探索方法
2021-04-09
Python 提取PDF文字和圖片
2023-10-10
Python
更改資料檔案路徑的方法
2019-03-04
chm檔案怎麼轉換成TXT格式？chm檔案快速轉化成TXT格式的方法
2019-04-08
XamarinSQLite教程在Xamarin.Android專案中提取資料庫檔案
2018-09-10
SQLiteAndroid資料庫
PDF轉文字檔案的最簡單方法
2019-07-09
python讀取文字檔案內容的方法主要分為哪三種？
2022-05-23
Python
文字資料分析——主題提取+詞向量化
2020-10-20
[20180718]拷貝資料檔案從dg庫.txt
2018-07-18
NLPIR大資料平臺的文字資訊提取功能介紹
2019-09-16
大資料
[20211021]windows新建文字檔案帶日期(補充).txt
2021-10-22
Windows
讓你在macOS上快速檢視txt文字檔案
2020-12-08
Mac
【Python3網路爬蟲開發實戰】5-資料儲存-1 檔案儲存-1 TXT文字儲存
2018-03-21
Python爬蟲
python讀取資料集檔案下所有檔案並打亂劃分生成訓練測試txt檔案（生成train.txt、test.txt，順序隨機，預設比例8:2）
2020-11-26
PythonAI隨機
！！！提取檔案記錄！！！
2024-11-12
批量提取資料夾內檔名
2018-04-14
python怎麼寫txt檔案路徑
2021-09-11
Python

Python提取文字檔案（.txt）資料的方法

相關文章