GitHub 上有哪些優秀的 Python 爬蟲專案?

志學Python發表於2020-04-13

大型爬蟲專案:

Photon

一個高速的爬蟲程式。最大的特點是它不是像普通爬蟲那樣只爬取結構和靜態資源,Photon被偏向設計為資訊收集爬蟲,它有非常靈活的規則設定和利於閱讀的匯出結果。

Photon提供的各種選項可以讓使用者按照自己的方式抓取網頁。

它最厲害的地方在於資料提取

預設情況下,Photon在抓取時會提取以下資料:

網址(範圍內和範圍外的)

帶引數的網址(http://example.com/gallery.php?id=2)

情報(電子郵件,社交媒體帳戶,亞馬遜水桶等)

檔案(pdf,png,xml等)

JavaScript等檔案

基於自定義正規表示式模式的字串

提取的資訊按下圖方式儲存。

GitHub 上有哪些優秀的 Python 爬蟲專案?

PySpide

一個國人編寫的強大的網路爬蟲系統並帶有強大的WebUI。採用Python語言編寫,分散式架構,支援多種資料庫後端,強大的WebUI支援指令碼編輯器,任務監視器,專案管理器以及結果檢視器。

它可以實現:

python 指令碼控制,可以用任何你喜歡的html解析包(內建 pyquery)

WEB 介面編寫除錯指令碼,起停指令碼,監控執行狀態,檢視活動歷史,獲取結果產出

資料儲存支援

MySQL, MongoDB, 

Redis, SQLite,

Elasticsearch;

 PostgreSQL 及 

SQLAlchemy

佇列服務支援RabbitMQ, Beanstalk, Redis 和 Kombu

支援抓取 JavaScript 的頁面

元件可替換,支援單機/分散式部署,支援 Docker 部署

強大的排程控制,支援超時重爬及優先順序設定

支援python2&3

實用型爬蟲專案:

financical.py

財務報表下載小助手。

動態示意圖:

GitHub 上有哪些優秀的 Python 爬蟲專案?

video_downloader

愛奇藝等主流視訊網站的VIP視訊破解助手(暫只支援PC和手機線上觀看VIP視訊!)

感謝Python3二維碼生成器作者:https://github.com/sylnsfar/qrcode

無需Python3環境,在Windows下,解壓即用!

BSGS_Rent

爬取並分析北上廣深鏈家網租房房源全部資料,得出租金分佈,租房考慮因素等建議(北上廣深租房圖鑑)

主要的檔案有:

house_data_crawler.py:爬取北上廣深租房房源資料的程式碼(帶說明和註釋,需要安裝mongodb)

info.py:租房型別和各城市各區域的資訊,供house_data_crawler.py呼叫

北上廣深租房圖鑑.ipynb:Jupyter notebook程式碼,對北上廣深租房資料進行分析

data_sample.csv:租房資料,這裡只隨機選擇了12000條,每城市3000條

12306

用Python搶火車票簡單程式碼,有爬蟲基礎就很好操作。

GitHub 上有哪些優秀的 Python 爬蟲專案?

webspider

本系統是一個主要使用python3, celery和requests來爬取職位資料的爬蟲,實現了定時任務,出錯重試,日誌記錄,自動更改Cookies等的功能,並使用ECharts + Bootstrap 來構建前端頁面,來展示爬取到的資料。

GitHub 上有哪些優秀的 Python 爬蟲專案?

downloader.py

一個可以用於下載圖片、視訊、檔案的小工具,有下載進度顯示功能。稍加修改即可新增到自己的爬蟲中。

GitHub 上有哪些優秀的 Python 爬蟲專案?

biqukan.py

《筆趣看》盜版小說網站,爬取小說工具

webspider

本系統是一個主要使用python3, celery和requests來爬取職位資料的爬蟲,實現了定時任務,出錯重試,日誌記錄,自動更改Cookies等的功能,並使用ECharts + Bootstrap 來構建前端頁面,來展示爬取到的資料。

geetest

爬蟲最大的敵人之一是什麼?沒錯,驗證碼!Geetest作為提供驗證碼服務的行家,市場佔有率還是蠻高的。

動態示意圖:

GitHub 上有哪些優秀的 Python 爬蟲專案?

Nyspider

各種爬蟲---大眾點評,安居客,58,人人貸,拍拍貸, IT桔子,拉勾網,豆瓣,搜房網,ASO100,氣象資料,貓眼電影,鏈家,PM25.in...

spider

以hao123為入口頁面,滾動爬取外鏈,收集網址,並記錄網址上的內鏈和外鏈數目,記錄title等資訊。windows7 32位上測試,目前每24個小時,可收集資料為10萬左右

CVPR2019

2019計算機視覺頂會CVPR全部論文PDF論文爬蟲

bdwenku-spider

百度文庫word文章爬取,學生黨超實用!支援txt,word,pdf,ppt型別資源的下載

其它有趣的Python爬蟲小專案:

LiveStream

爬取了西瓜直播(今日頭條旗下APP)各型別遊戲的主播直播資料107.5萬條,並分析直播平臺和遊戲主播行業是否真如我們想象般的暴利。適合Python爬蟲學習者、Python資料分析學習者、Pandas使用者、資料視覺化學習者

Zhihu -Spider

知乎關係網爬蟲

LaborDay

按全國各個城市抓取飛豬“景點門票”欄的景點門票銷售資料,並且分析五一哪些景點會人擠人,哪些景點值得一去。同樣適合Python爬蟲學習者、Python資料分析學習者、Pandas使用者、資料視覺化學習者學習。

KrisWu

隨機抓取吳亦凡發表《大碗寬面》微博的微博轉發資料10萬條,並分析該條微博的真假轉發比例,以及大家對於這首歌的情感傾向如何

ESL

爬取了外籍人員招聘網站JobLEADChina上的外籍英語老師招聘資料945條,萬行教師人才網上的英語老師招聘資料5780條,以及微信群成員資訊498條,分析外教教師的招聘狀況。洋外教的工資學歷情況一目瞭然。

Wechat_article_collector

一個微信公眾號文章採集器,用於採集微信公眾號文章並儲存至word文件。

專案很簡單,主要包括以下檔案:

  • article_collector.py:主檔案,用於爬取公眾號文章以及把文章儲存為word文件;

  • add_hyperlinks.py:用於在word文件中新增超連結

  • gzh.txt:待爬取的公眾號列表

  • 比心.JPG:用來撒狗糧的,不用管

one_hour_spider

一小時入門Python3網路爬蟲。

內容有包括:

網路小說下載(靜態網站)-biqukan

優美桌布下載(動態網站)-unsplash

愛奇藝VIP視訊下載

PUBG-juediqiusheng-data_analysis

專案主要分析絕地求生72萬場比賽的資料,並結合資料給出吃雞攻略,用資料吃雞!

主要的檔案為:

  • 20G 絕地求生比賽資料集分析.ipynb:Jupyter Notebook格式,程式碼和說明都在這裡

  • erangel.jpg:絕地海島艾倫格地圖

  • miramar.jpg:熱情沙漠米拉瑪地圖

Weibo_Comment_Pics

這個專案主要是模擬登入微博手機網頁端,爬取指定微博下面的評論資料,並且下載評論中的表情包圖片

主要的檔案為:

photo_crawler.py:程式碼(帶說明和註釋)

cookie.txt:爬取電腦端網頁時的cookie,具有時效性,需要自行更新

XSStrike

XSStrike是一個Cross Site Scripting檢測套件,配備四個手寫解析器,一個智慧有效載荷生成器,是一個強大的模糊引擎和一個非常快速的爬蟲。

相關文章