GitHub 上有哪些優秀的 Python 爬蟲專案?
大型爬蟲專案:
Photon
一個高速的爬蟲程式。最大的特點是它不是像普通爬蟲那樣只爬取結構和靜態資源,Photon被偏向設計為資訊收集爬蟲,它有非常靈活的規則設定和利於閱讀的匯出結果。
Photon提供的各種選項可以讓使用者按照自己的方式抓取網頁。
它最厲害的地方在於資料提取
預設情況下,Photon在抓取時會提取以下資料:
網址(範圍內和範圍外的)
帶引數的網址(http://example.com/gallery.php?id=2)
情報(電子郵件,社交媒體帳戶,亞馬遜水桶等)
檔案(pdf,png,xml等)
JavaScript等檔案
基於自定義正規表示式模式的字串
提取的資訊按下圖方式儲存。
PySpide
一個國人編寫的強大的網路爬蟲系統並帶有強大的WebUI。採用Python語言編寫,分散式架構,支援多種資料庫後端,強大的WebUI支援指令碼編輯器,任務監視器,專案管理器以及結果檢視器。
它可以實現:
python 指令碼控制,可以用任何你喜歡的html解析包(內建 pyquery)
WEB 介面編寫除錯指令碼,起停指令碼,監控執行狀態,檢視活動歷史,獲取結果產出
資料儲存支援
MySQL, MongoDB,
Redis, SQLite,
Elasticsearch;
PostgreSQL 及
SQLAlchemy
佇列服務支援RabbitMQ, Beanstalk, Redis 和 Kombu
支援抓取 JavaScript 的頁面
元件可替換,支援單機/分散式部署,支援 Docker 部署
強大的排程控制,支援超時重爬及優先順序設定
支援python2&3
實用型爬蟲專案:
financical.py
財務報表下載小助手。
動態示意圖:
video_downloader
愛奇藝等主流視訊網站的VIP視訊破解助手(暫只支援PC和手機線上觀看VIP視訊!)
感謝Python3二維碼生成器作者:https://github.com/sylnsfar/qrcode
無需Python3環境,在Windows下,解壓即用!
BSGS_Rent
爬取並分析北上廣深鏈家網租房房源全部資料,得出租金分佈,租房考慮因素等建議(北上廣深租房圖鑑)
主要的檔案有:
house_data_crawler.py:爬取北上廣深租房房源資料的程式碼(帶說明和註釋,需要安裝mongodb)
info.py:租房型別和各城市各區域的資訊,供house_data_crawler.py呼叫
北上廣深租房圖鑑.ipynb:Jupyter notebook程式碼,對北上廣深租房資料進行分析
data_sample.csv:租房資料,這裡只隨機選擇了12000條,每城市3000條
12306
用Python搶火車票簡單程式碼,有爬蟲基礎就很好操作。
webspider
本系統是一個主要使用python3, celery和requests來爬取職位資料的爬蟲,實現了定時任務,出錯重試,日誌記錄,自動更改Cookies等的功能,並使用ECharts + Bootstrap 來構建前端頁面,來展示爬取到的資料。
downloader.py
一個可以用於下載圖片、視訊、檔案的小工具,有下載進度顯示功能。稍加修改即可新增到自己的爬蟲中。
biqukan.py
《筆趣看》盜版小說網站,爬取小說工具
webspider
本系統是一個主要使用python3, celery和requests來爬取職位資料的爬蟲,實現了定時任務,出錯重試,日誌記錄,自動更改Cookies等的功能,並使用ECharts + Bootstrap 來構建前端頁面,來展示爬取到的資料。
geetest
爬蟲最大的敵人之一是什麼?沒錯,驗證碼!Geetest作為提供驗證碼服務的行家,市場佔有率還是蠻高的。
動態示意圖:
Nyspider
各種爬蟲---大眾點評,安居客,58,人人貸,拍拍貸, IT桔子,拉勾網,豆瓣,搜房網,ASO100,氣象資料,貓眼電影,鏈家,PM25.in...
spider
以hao123為入口頁面,滾動爬取外鏈,收集網址,並記錄網址上的內鏈和外鏈數目,記錄title等資訊。windows7 32位上測試,目前每24個小時,可收集資料為10萬左右
CVPR2019
2019計算機視覺頂會CVPR全部論文PDF論文爬蟲
bdwenku-spider
百度文庫word文章爬取,學生黨超實用!支援txt,word,pdf,ppt型別資源的下載
其它有趣的Python爬蟲小專案:
LiveStream
爬取了西瓜直播(今日頭條旗下APP)各型別遊戲的主播直播資料107.5萬條,並分析直播平臺和遊戲主播行業是否真如我們想象般的暴利。適合Python爬蟲學習者、Python資料分析學習者、Pandas使用者、資料視覺化學習者
Zhihu -Spider
知乎關係網爬蟲
LaborDay
按全國各個城市抓取飛豬“景點門票”欄的景點門票銷售資料,並且分析五一哪些景點會人擠人,哪些景點值得一去。同樣適合Python爬蟲學習者、Python資料分析學習者、Pandas使用者、資料視覺化學習者學習。
KrisWu
隨機抓取吳亦凡發表《大碗寬面》微博的微博轉發資料10萬條,並分析該條微博的真假轉發比例,以及大家對於這首歌的情感傾向如何
ESL
爬取了外籍人員招聘網站JobLEADChina上的外籍英語老師招聘資料945條,萬行教師人才網上的英語老師招聘資料5780條,以及微信群成員資訊498條,分析外教教師的招聘狀況。洋外教的工資學歷情況一目瞭然。
Wechat_article_collector
一個微信公眾號文章採集器,用於採集微信公眾號文章並儲存至word文件。
專案很簡單,主要包括以下檔案:
article_collector.py:主檔案,用於爬取公眾號文章以及把文章儲存為word文件;
add_hyperlinks.py:用於在word文件中新增超連結
gzh.txt:待爬取的公眾號列表
比心.JPG:用來撒狗糧的,不用管
one_hour_spider
一小時入門Python3網路爬蟲。
內容有包括:
網路小說下載(靜態網站)-biqukan
優美桌布下載(動態網站)-unsplash
愛奇藝VIP視訊下載
PUBG-juediqiusheng-data_analysis
專案主要分析絕地求生72萬場比賽的資料,並結合資料給出吃雞攻略,用資料吃雞!
主要的檔案為:
20G 絕地求生比賽資料集分析.ipynb:Jupyter Notebook格式,程式碼和說明都在這裡
erangel.jpg:絕地海島艾倫格地圖
miramar.jpg:熱情沙漠米拉瑪地圖
Weibo_Comment_Pics
這個專案主要是模擬登入微博手機網頁端,爬取指定微博下面的評論資料,並且下載評論中的表情包圖片
主要的檔案為:
photo_crawler.py:程式碼(帶說明和註釋)
cookie.txt:爬取電腦端網頁時的cookie,具有時效性,需要自行更新
XSStrike
XSStrike是一個Cross Site Scripting檢測套件,配備四個手寫解析器,一個智慧有效載荷生成器,是一個強大的模糊引擎和一個非常快速的爬蟲。
相關文章
- GitHub上有哪些優秀的爬蟲專案?Github爬蟲
- python爬蟲例項專案大全-GitHub 上有哪些優秀的 Python 爬蟲專案?Python爬蟲Github
- GitHub 上有哪些適合新手跟進的優質專案?Github
- github上的python爬蟲專案_GitHub - ahaharry/PythonCrawler: 用python編寫的爬蟲專案集合GithubPython爬蟲
- GitHub 上有哪些適合新手跟進的優質專案?(附地址)Github
- GitHub上優秀的Go開源專案GithubGo
- GitHub 上優秀的 Go 開源專案GithubGo
- Python爬蟲專案整理Python爬蟲
- python爬蟲初探--第一個python爬蟲專案Python爬蟲
- Python網路爬蟲實戰專案大全 32個Python爬蟲專案demoPython爬蟲
- 專案--python網路爬蟲Python爬蟲
- 網路爬蟲(python專案)爬蟲Python
- 33個Python爬蟲專案Python爬蟲
- Python簡單爬蟲專案Python爬蟲
- Python爬蟲入門專案Python爬蟲
- python在爬蟲方面有哪些優勢呢?Python爬蟲
- python爬蟲-33個Python爬蟲專案實戰(推薦)Python爬蟲
- Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案Python爬蟲框架
- (python)爬蟲----八個專案帶你進入爬蟲的世界Python爬蟲
- 爬蟲專案爬蟲
- python爬蟲實操專案_Python爬蟲開發與專案實戰 1.6 小結Python爬蟲
- 不踩坑的Python爬蟲:Python爬蟲開發與專案實戰,從爬蟲入門 PythonPython爬蟲
- Dockerc等本週Github上有趣專案DockerGithub
- Python培訓教程分享:有哪些值得使用的爬蟲開源專案?Python爬蟲
- Python爬蟲開源專案合集Python爬蟲
- 32個Python爬蟲專案demoPython爬蟲
- python爬蟲例項專案大全Python爬蟲
- 【爬蟲】爬蟲專案推薦 / 思路爬蟲
- 什麼是爬蟲?Python爬蟲框架有哪些?爬蟲Python框架
- 掰一掰GitHub上優秀的大資料專案Github大資料
- 優秀的專案管理應具備哪些條件?專案管理
- 沸點開源秀:推薦一波優秀的 GitHub 專案合集Github
- 什麼是Python爬蟲?Python爬蟲常用框架有哪些?Python爬蟲框架
- Python爬蟲開發與專案實戰——基礎爬蟲分析Python爬蟲
- Python爬蟲開發與專案實戰 3: 初識爬蟲Python爬蟲
- 爬蟲小專案爬蟲
- 爬蟲專案部署爬蟲
- 建立爬蟲專案爬蟲