Python爬蟲開源專案合集
scrapy - 最出名的網路爬蟲,一個快速,高層次的螢幕抓取和web抓取框架,用於抓取web站點並從頁面中提取結構化的資料。Scrapy用途廣泛,可以用於資料探勘、監測和自動化測試。官方主頁,Scrapy 輕鬆定製網路爬蟲 - 教程,Scrapy 中文指南 。
專案地址:
https://github.com/scrapy/scrapy/
BeautifulSoup - Beautifu Soup不完全是一套爬蟲工具,需要配合urllib使用,而是一套HTML/XML資料分析,清洗和獲取工具。
專案地址:
http://www.crummy.com/software/BeautifulSoup/
python-goose - Python-Goose用Python重寫,依賴了Beautiful Soup。給定一個文章的URL, 獲取文章的標題和內容很方便。
專案地址:
https://github.com/grangier/python-goose/
pyspider - PySpider:一個國人編寫的強大的網路爬蟲系統並帶有強大的WebUI。採用Python語言編寫,分散式架構,支援多種資料庫後端,強大的WebUI支援指令碼編輯器,任務監視器,專案管理器以及結果檢視器。demo地址,網路爬蟲剖析,以Pyspider為例 , Scrapy 示例 —— Web 爬蟲框架 。
專案地址:
https://github.com/binux/pyspider
PyQuery - 是 Python 仿照 jQuery 的嚴格實現。語法與 jQuery 幾乎完全相同,所以不用再去費心去記一些奇怪的方法了。python爬蟲神器PyQuery的使用方法。
專案地址:
https://github.com/gawel/pyquery
distribute_crawler - 使用scrapy,redis,mongodb,graphite實現的一個分散式網路爬蟲。
專案地址:
https://github.com/gnemoug/distribute_crawler
youtube-dl - 一個可從YouTube等網站下載視訊的開源神器,採用Python開發,支援多個OS平臺,支援眾多視訊網站國內優酷、土豆、新浪和搜狐,國外YouTube等赫然在列。
專案地址:
https://github.com/rg3/youtube-dl//
you-get - 能幫你快速爬取你想要的一切,支援64個網站,包括優酷、土豆、愛奇藝、b站、酷狗音樂、蝦米。
專案地址:
https://github.com/soimort/you-get/
Lulu - You-get的一個友好分叉(fork), 類似網路爬蟲的簡單下載程式。
專案地址:
https://github.com/iawia002/Lulu
pytube - 一個非常嚴謹、輕量級、無依賴性的用於下載youtube視訊的python庫。
專案地址:
http://www.pythonzxw.com
python專業學習論壇,每日大量更新python學習教程。
專案地址:
https://github.com/nficano/pytube
meizi_spider - 獲取慕課網視訊教程,基於Scrapy(0.22)。
專案地址:
https://github.com/lpe234/meizi_spider
spider_smooc - 爬取慕課網視訊 ,使用BeautifulSoup模組解析html。
專案地址:
https://github.com/qiyeboy/spider_smooc
proxy_pool - 爬蟲代理池,爬去取網上免費的代理IP。
專案地址:
https://github.com/jhao104/proxy_pool
Amazon-scraper-Python - 一款非官方的爬取工具,能夠獲取亞馬遜上在售商品的資訊,比如商品排名和評論數量。
專案地址:
https://github.com/tducret/amazon-scraper-python
Douyin-Bot - Python 抖音機器人,論如何在抖音上找到漂亮小姐姐?
專案地址:
https://github.com/wangshub/Douyin-Bot
DouYin - 不到 10 行程式碼完成抖音熱門視訊的爬取!
專案地址:
https://github.com/Python3WebSpider/DouYin
Sotawhat - arxiv論文爬蟲,只需輸入論文關鍵詞,就會為你抓取arxiv上的論文並總結摘要,讓你輕鬆同步最新研究結果。
專案地址:
https://github.com/chiphuyen/sotawhat
Gerapy - 國人開發的,分散式的爬蟲管理框架,基於Scrapy, Scrapyd, Scrapyd-Client, Scrapyd-API, Django and Vue.js 技術!
專案地址:
https://github.com/Gerapy/Gerapy
Crawlab - 基於Celery的爬蟲分散式爬蟲管理平臺,支援多種程式語言以及多種爬蟲框架.
專案地址:
https://github.com/tikazyq/crawlab
awesome-python-login-model - 模擬登陸一些大型網站,還有一些簡單的爬蟲。
專案地址:
https://github.com/CriseLYJ/awesome-python-login-model
Pyppeteer - Pyppeteer其實是Puppeteer的Python版本,,Puppeteer是谷歌出品的一款基於Node.js開發的一款工具,主要是用來操縱Chrome瀏覽器的 API,通過Javascript程式碼來操縱Chrome瀏覽器,完成資料爬取、Web程式自動測試等任務。
專案地址:
https://github.com/miyakogi/pyppeteer
python_12306 - 用python實現的12306搶票小工具。
專案地址:
https://github.com/versionzhang/python_12306
py12306 - 12306 購票助手,支援叢集,多賬號,多工購票以及 Web 頁面管理。
專案地址:
https://github.com/pjialin/py12306
12306 - 12306智慧刷票,訂票,分散式、多賬號、多工購票。
專案地址:
https://github.com/testerSunshine/12306
相關文章
- 爬蟲實戰專案合集爬蟲
- python爬蟲實操專案_Python爬蟲開發與專案實戰 1.6 小結Python爬蟲
- Python開發爬蟲專案+程式碼Python爬蟲
- python爬蟲初探--第一個python爬蟲專案Python爬蟲
- 這 6 個爬蟲開源專案 yyds爬蟲
- 不踩坑的Python爬蟲:Python爬蟲開發與專案實戰,從爬蟲入門 PythonPython爬蟲
- Python網路爬蟲實戰專案大全 32個Python爬蟲專案demoPython爬蟲
- 網路爬蟲(python專案)爬蟲Python
- 專案--python網路爬蟲Python爬蟲
- python爬蟲-33個Python爬蟲專案實戰(推薦)Python爬蟲
- python爬蟲例項專案大全-GitHub 上有哪些優秀的 Python 爬蟲專案?Python爬蟲Github
- Python培訓教程分享:有哪些值得使用的爬蟲開源專案?Python爬蟲
- Python爬蟲開發與專案實戰pdfPython爬蟲
- Python爬蟲開發與專案實戰(2)Python爬蟲
- Python爬蟲開發與專案實踐(3)Python爬蟲
- Python爬蟲開發與專案實戰(1)Python爬蟲
- Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案Python爬蟲框架
- 32個Python爬蟲專案demoPython爬蟲
- github上的python爬蟲專案_GitHub - ahaharry/PythonCrawler: 用python編寫的爬蟲專案集合GithubPython爬蟲
- 爬蟲專案爬蟲
- 利用scrapy建立初始Python爬蟲專案Python爬蟲
- 【爬蟲】爬蟲專案推薦 / 思路爬蟲
- (python)爬蟲----八個專案帶你進入爬蟲的世界Python爬蟲
- Python爬蟲開發與專案實戰--分散式程式Python爬蟲分散式
- python書籍推薦-Python爬蟲開發與專案實戰Python爬蟲
- 爬蟲小專案爬蟲
- 爬蟲專案部署爬蟲
- Python網路爬蟲實戰小專案Python爬蟲
- Python網路爬蟲實戰專案大全!Python爬蟲
- Python爬蟲專案100例,附原始碼!100個Python爬蟲練手例項Python爬蟲原始碼
- Python爬蟲小專案:爬一個圖書網站Python爬蟲網站
- Python爬蟲開發與專案實戰 4: HTML解析大法Python爬蟲HTML
- 視訊教程-Python網路爬蟲開發與專案實戰-PythonPython爬蟲
- python專案開發例項-Python專案案例開發從入門到實戰——爬蟲、遊戲Python爬蟲遊戲
- Python爬蟲教程-32-Scrapy 爬蟲框架專案 Settings.py 介紹Python爬蟲框架
- 資源整理 | 32個Python爬蟲專案讓你一次吃到撐Python爬蟲
- GitHub 上有哪些優秀的 Python 爬蟲專案?GithubPython爬蟲
- Python靜態網頁爬蟲專案實戰Python網頁爬蟲