60萬行的Excel資料，Python輕鬆處理

嗨學程式設計發表於2019-01-14

原文網址 : https://juejin.im/post/5c3c326051882525dd59178d

一個朋友在某運動品牌公司上班，老闆給他佈置了一個處理客戶訂單資料的任務。要求是根據訂單時間和客戶id判斷生成四個新的資料：

1、記錄該客戶是第幾次光顧

2、上一次的日期時間是什麼時候

3、與上次訂單的間隔時間

4、這是一個existing客戶還是一個new客戶（見定義）

推薦下我自己建立的Python學習交流群960410445，這是Python學習交流的地方，不管你是小白還是大牛，小編都歡迎，不定期分享乾貨，包括我整理的一份適合零基礎學習Python的資料和入門教程。

檔案說明：

1、第一列是訂單日期和時間（亂序）

2、第二列是客戶的id

3、第三列不需要使用

4、60+萬行資料

相關定義如下：

1、existing：此次下單日期時間與上次日期時間的距離在N天以內，精確到時間（時分秒）

2、new：即超過N天

60萬行的Excel資料，Python輕鬆處理

整體思路

1、讀取表格的行資料儲存成list，並按照時間列的升序排序。

2、維護一個map（在python裡是字典dict），每個使用者 id 作為key，一個二元組（第幾次下單，上一次的日期時間）作為value。

3、遍歷表格行資料的list。判斷客戶 id 是否已經存在於map中，若首次出現，則置該客戶 id 在map中的value為[1,'首次下單']，對應行資料新增的4個資料為[1，'首次下單',該次日期時間與上次日期時間差，'new']。若已經存在，則更新map中對應的value為[原次數+1，該次日期時間]，對應行資料新增的4個資料為[原次數+1，上次日期時間，間隔時間，new/existing取決於間隔時間與預設N]。

4、將修改過後的行資料list寫入到Excel工作簿並儲存。

讀取表格資料

我們可以用xlrd模組對Excel檔案進行讀取，以便進一步分析處理資料。示例程式碼如下：

60萬行的Excel資料，Python輕鬆處理

以上程式碼成功輸出前100行的日期則說明已經成功讀取到資料。輸出結果如下：

60萬行的Excel資料，Python輕鬆處理

既然讀取檔案沒有問題，進一步瀏覽整個檔案發現存在多餘的空行和重複的標題行在讀取和轉存中可以用正則匹配過濾掉這些行。

60萬行的Excel資料，Python輕鬆處理

將讀取的行資料轉存到list中，以便進行排序。

60萬行的Excel資料，Python輕鬆處理

將修改後的行資料list寫入Excel表格並儲存為xslx格式

60萬行的Excel資料，Python輕鬆處理

結果展示

60萬行的Excel資料，Python輕鬆處理

完整程式碼

60萬行的Excel資料，Python輕鬆處理

相關文章

Python資料處理（二）：處理 Excel 資料
2019-02-16
PythonExcel
掌握BeanShell，輕鬆處理jmeter中的資料
2021-10-19
BeanJMeter
Python使用xlrd處理excel資料
2020-11-19
PythonExcel
效率提升50倍，輕鬆處理大資料
2018-06-21
大資料
Python自動化處理Excel資料
2023-11-01
PythonExcel
Excel 資料處理
2022-07-21
Excel
【Python自動化Excel】pandas處理Excel資料的基本流程
2022-01-09
PythonExcel
面對眾多資料難以下手？資料預處理讓你輕輕鬆鬆“超車”
2018-06-27
在`Laravel`中使用`cursor`來查詢並處理資料 (輕鬆處理千萬級的資料)
2020-12-24
Laravel
在Laravel中使用cursor來查詢並處理資料 (輕鬆處理千萬級的資料)
2020-12-24
Laravel
BI與SaaS碰撞，讓資料處理更加輕鬆（下）
2022-06-17
python EXCEL處理
2021-09-20
PythonExcel
使用Excel高效處理資料
2022-07-20
Excel
Java與React輕鬆匯出Excel/PDF資料
2024-06-19
JavaReactExcel
Excel超大資料量如何進行處理？這個BI工具幫你輕鬆脫困
2022-02-28
Excel大資料
Python 潮流週刊#52：Python 處理 Excel 的資源
2024-05-25
PythonExcel
用《Excel》玩轉格式，輕鬆分析龐大資料！
2021-02-09
Excel大資料
如何輕鬆學習Python資料分析？
2019-03-11
Python
python輕鬆過濾處理髒話與特殊敏感詞彙的方法
2022-08-11
Python
python 處理資料
2020-10-29
Python
Excel檔案利用MySQL/Python 實現自動處理資料的功能
2023-02-21
ExcelMySqlPython
輕鬆處理增值稅發票資料的利器——增值稅發票識別 API
2024-05-03
API
Python中用OpenPyXL處理Excel表格
2019-04-10
PythonExcel
Microsoft Excel 2019 - 讓你更輕鬆地管理和分析資料！
2024-01-26
ROSExcel
【Python自動化Excel】pandas處理Excel的“分分合合”
2022-02-22
PythonExcel
輕鬆利用Python爬蟲爬取你想要的資料
2021-09-10
Python爬蟲
Pandas缺失值處理 | 輕鬆玩轉Pandas（3）
2018-07-24
如何在Java中輕鬆處理Emoji Unicode - Udayakumar
2020-10-02
JavaUnicode
第一章 Excel資料分析入門 --（3）Excel處理資料的常用操作
2020-10-31
Excel
Python Excel處理庫openpyxl詳解
2018-05-03
PythonExcel
[資料處理]python基礎
2019-02-02
Python
Python資料處理典型用法
2024-11-03
Python
Python資料處理-pandas用法
2020-12-17
Python
桌面輕量級資料處理指令碼
2020-12-03
指令碼
結合 AOP 輕鬆處理事件釋出處理日誌
2020-06-03
事件
【Python基礎】Python處理Excel檔案，進行篩選資料、排序等操作及儲存新的Excel檔案
2020-12-13
PythonExcel排序
EXCEL的重生！處理百萬行資料竟如此簡單
2020-08-27
Excel
Excel高階應用教程：資料處理與資料分析
2018-05-25
Excel