記一次800多萬XML文字檔案預處理經歷

耕耘實錄發表於2018-11-08

原文網址 : https://flycode.co/archives/159805

一.背景

由於某些需求，現需對系統在最近幾個月生成的xml檔案進行預處理，提取標籤內的資料進行分析。這些需要預處理的資料大概有280GB左右880多萬，存放在gysl目錄下，gysl的下一層按天命名，分為若干個目錄，接下來一層目錄下又有多個目錄，我們所需的xml目錄就在這一層。我們現在需要將此目錄下面的xml檔案使用Python指令碼進行處理，並將處理結果按天（與原始檔一致）儲存到~/temp目錄下。

二.操作過程

2.1 Python指令碼準備。

#!/usr/bin/python3
# -*- coding:utf-8 -*-
import glob,os,sys, re
from concurrent.futures import ProcessPoolExecutor
import argparse
import random

def find_xs(str, list):
    i = 0
    for i in range(0,len(str)):
        if str[i] in list:
            return i
    return -1

def segement_aux(para, OUT, sep_list, max_length, merge_prob):
    pos = 0
    res_sentence = ""
    sentence_size = 0
    while True:
        #segment one line.
        pos = find_xs(para,sep_list)
        if pos == -1:
            break
        cur_sentence = para[:pos+1].strip()
        cur_sentence_filtering = cur_sentence
        res_sentence = res_sentence + cur_sentence_filtering
        sentence_size = sentence_size + 1
        if sentence_size == 2:
            OUT.write(res_sentence + `
`)
        else:
            rand = random.random() 
            if rand > merge_prob:
                OUT.write(res_sentence + `
`)
                res_sentence = ""
                sentence_size = 0
            else:
                sentence_size = sentence_size + 1
        para = para[pos+1:]
    
def loadXMLfile(inputfile):
    sep_list= [`。`, `？`, `!`]
    targetfolder = "Target"
    max_length = 100000
    merge_prob = 0.6
    basefilename =os.path.basename(inputfile)
    outputfile = targetfolder + `/`+ os.path.splitext(basefilename)[0] + ".tsv"
    textSessionPattern = re.compile(r`<text>(.*?)</text>s*`,  re.I|re.MULTILINE)
    OUT = open(outputfile, `w`,encoding="utf8")
    for line in open(inputfile,encoding="utf8"):
        line = line.strip().rstrip("
")
        alltextsessions = re.findall(textSessionPattern, line)
        for textsession in alltextsessions:
            textsession = re.sub(r`	`, r` `, textsession)
            textsession = re.sub(r`<[^<|>]+>`, r``, textsession)
            textsession = re.sub(r`{[^}|{]+}`, r``, textsession)
            textsession = re.sub(r`s+`,r``,textsession)
            OUT.write(textsession+`
`)
    OUT.close()
    return outputfile
    
def processXMLfilesWithThreads(input):
    with ProcessPoolExecutor() as executor:
        xmlfiles = glob.glob(input + "/*.xml")
        for xmlfile, outputfile in zip( xmlfiles, executor.map( loadXMLfile, xmlfiles) ):
            print("Processed" + outputfile)

if __name__ == `__main__`:
    ap = argparse.ArgumentParser()
    ap.add_argument("-i", "--input", required=True, help="the directory of input files")
    args = ap.parse_args()
    processXMLfilesWithThreads(input = args.input)

2.2 Shell指令碼準備。

for folder in `find /home/ivandu/gysl -path "*/xml" -print`;do mkdir Target;python3 XMLPreProcess.py --input $folder;mv Target ~/temp/$(echo $folder|awk -F "/" `{print $5}`);done

看著有點費勁，改一下：

#!/bin/bash
for folder in `find /home/ivandu/gysl -path "*/xml" -print`;
    do 
        mkdir Target;
        python3 XMLPreProcess.py --input $folder;
        mv Target ~/temp/$(echo $folder|awk -F "/" `{print $5}`);
    done

2.3 執行指令碼。

此步驟就不展示了，涉及到某些商業機密。在Python指令碼所在的目錄下，執行Shell指令碼就行。

三.遇到問題

3.1 “Argument list too long”。

在執行某目錄下的檔案移動、複製、刪除操作時，發現提示“Argument list too long”，命令執行不成功。這個目錄下的檔案數量超過30萬，操作命令如下：

cp * ~/gysl_test

提示：

-sh: /bin/cp: Argument list too long

解決方案：

for file in `ls`;do cp $file ~/gysl_test/;done

rm,mv也類似，太忙了也就沒繼續探討其他解決方案。

3.2 雙for迴圈執行效率太低。

for folder in `find /home/ivandu/gysl/ -mindepth 2 -maxdepth 2 -print|grep "xml"`；do cd $folder;for file in $(ls);do cp $file ~/gysl_test/;done;done

如果使用這命令來拷貝這些檔案的話，那麼這一天可能就過去了！這個肯定不妥，必須改進。find也用得不夠簡潔，後來都進行優化了。

3.3 Python單執行緒執行效率太低。

Python指令碼使用了多執行緒來進行處理。不過多解釋，大家見諒^_^

四.總結

4.1 總體來說今天處理這些資料還是挺給力的，差不多5000秒就完成了。我寫了一條命令動態觀察了一下。

4.2 正規表示式隨時都能用上，要不是處理一下特殊任務和Python多執行緒，直接一個grep命令寫到shell命令或許早就完事了。

4.3 多執行緒。bash shell中的多執行緒還不會使用，以後還得加強學習一下。

4.4 就寫這麼多了，不足之處還望諸位不吝賜教。

Go xml檔案處理
2022-03-15
GoXML
前端如何處理xml配置檔案？
2024-08-16
前端XML
linux 透過xmllint處理xml檔案
2019-07-29
LinuxXML
記一次PMML檔案的處理過程
2019-02-02
利用 python 遍歷多級資料夾處理不同檔案
2019-10-18
Python
Linux檔案管理知識:文字處理
2023-11-09
Linux
一次在docker中處理kdevtmpfsi的經歷
2020-01-02
Dockerdev
記一次dump檔案分析歷程
2022-03-12
Shell指令碼逐行處理文字檔案技巧
2021-05-15
指令碼
11.9Linux檔案管理知識:文字處理
2023-11-03
Linux
SPM12之fMRI批次預處理——NII檔案處理
2024-07-25
Python筆記(五)——檔案處理
2020-09-30
Python筆記
文字檢測預處理地址
2018-10-10
JSP筆記-XML 資料處理
2021-08-06
JS筆記XML
記一次vba+word+excel+powerbi處理問卷調研結果的經歷
2018-05-31
Excel
Python編解碼問題與文字檔案處理
2021-06-19
Python
LayUI多檔案上傳，支援歷史上傳預覽
2024-01-17
UI
解析XML檔案時,無效的XML 字元 (Unicode: 0x7)異常處理
2018-08-06
XML字元Unicode
記錄一次WhatTheFuck經歷
2024-05-27
記一次面試經歷
2020-09-04
面試
文字預處理技術詳解
2019-01-16
（五）Linux之檔案與目錄管理以及文字處理
2021-08-24
Linux
python 檔案處理
2018-05-15
Python
python處理檔案
2020-09-18
Python
python檔案處理
2023-02-26
Python
記一次翻譯站經歷
2019-01-17
記一次使用 SelectMany 的經歷
2021-12-02
KeyboardMaestro_PathFinder_依次處理多個選中檔案
2018-05-09
xml檔案
2020-09-28
XML
記一次營銷活動經歷
2018-03-15
記一次編譯GCC的經歷
2024-06-10
編譯GC
python處理txt檔案
2020-10-10
Python
window 批處理檔案
2019-05-10
Python之檔案處理
2024-07-08
Python
記一次nodejs+mongodb資料庫專案學習經歷
2018-07-11
NodeJSMongoDB資料庫
Java使用javacv處理影片檔案過程記錄
2024-04-15
Java
Mybatis 學習筆記（一）——配置檔案SqlMapConfig.xml和對映檔案Mapper.xml
2018-10-13
MyBatis筆記SQLXMLAPP
記一次官網被黑的經歷
2019-01-27

記一次800多萬XML文字檔案預處理經歷

一.背景

二.操作過程

三.遇到問題

四.總結

相關文章