現有一個28G的txt檔案,裡面每一行是一個分詞過的專利全文文件,一共370多萬行。我需要把它按每五萬行為單位做成一個json檔案,格式大致如下:
[{"id":"100000001","quanwen":"你好 張夢"},...] 其中每個quanwen中內容是每一行的文字。
# -*- coding: utf-8 -*- import json def func(num): f1 = open("result.txt", "r") ls = [] m = 100000001+(num-1)*50000 #m變數為id n = 1 for eachline in f1: if n<((num-1)*50000+1): n+=1 continue data = {} data["id"] = str(m) data["quanwen"] = eachline.replace('\n', ' ') ls.append(data) m += 1 if m==(100000001+num*50000): break f2 = open('%s.json'%str(num), 'w') f2.write(json.dumps(ls)) f2.close() f1.close() i = 1 while i < 76: func(i) i+=1