Requests庫
爬蟲必備庫,鼎鼎大名,用來發起get、post等請求,可以算是url庫在python3的繼承者。
BeautifulSoup庫
爬蟲必備庫,也是很有名,用來解析html程式碼,從中提取有用資料。一般推薦搭配lxml解析庫使用,有些程式碼遇到解析問題,可以嘗試用html.parser庫替代。
tqdm庫
可以用來作進度條,展示程式執行進度,比如爬蟲的日誌。但是注意,在windows命令列中,無法實現同行重新整理,每次都會輸出一行新的,就不推薦使用了。(powershell下沒試過)
peewee庫
用來做資料庫模型很好用,當然也可以直接用sqlalchemy庫。這個庫我個人覺得,比後者學起來要簡單一些,而且可以用命令列在模型類和資料庫表結構之間一鍵匯入匯出。
Arrow庫
個人覺得最好用的時間轉換庫,強烈推薦。支援各種格式,並且api可讀性也很好,方便切換前後N天N周等。
PIL庫
python最佳圖形處理庫,我只用它做過影像裁切轉換拼接等,據說可以實現逐個畫素修改、檢測、計算等,在影像識別領域也有很多用途。
OpenPyxl
我個人比較喜歡的office文件處理庫,用來處理excel很方便。但是貌似不適用於大批量處理資料,大批量還是推薦pandas庫,直接載入csv檔案。
Jsonlines庫
微信小程式開發可以用用,微信雲開發使用的是json lines格式,算是json的變體,轉換起來還是有些麻煩的,要自己寫一下,用這個可以稍微節省點時間精力。
PyPinyin庫
用來把漢字轉換拼音的,需要自己寫一個函式,把轉換好的拼音拼接起來,否則是一個字一個拼音,是陣列格式。