Python爬蟲開源專案合集

pythonzxw發表於2020-06-04

  scrapy - 最出名的網路爬蟲,一個快速,高層次的螢幕抓取和web抓取框架,用於抓取web站點並從頁面中提取結構化的資料。Scrapy用途廣泛,可以用於資料探勘、監測和自動化測試。官方主頁,Scrapy 輕鬆定製網路爬蟲 - 教程,Scrapy 中文指南 。
  專案地址:
  https://github.com/scrapy/scrapy/
  BeautifulSoup - Beautifu Soup不完全是一套爬蟲工具,需要配合urllib使用,而是一套HTML/XML資料分析,清洗和獲取工具。
  專案地址:
  http://www.crummy.com/software/BeautifulSoup/
  python-goose - Python-Goose用Python重寫,依賴了Beautiful Soup。給定一個文章的URL, 獲取文章的標題和內容很方便。
  專案地址:
  https://github.com/grangier/python-goose/
  pyspider - PySpider:一個國人編寫的強大的網路爬蟲系統並帶有強大的WebUI。採用Python語言編寫,分散式架構,支援多種資料庫後端,強大的WebUI支援指令碼編輯器,任務監視器,專案管理器以及結果檢視器。demo地址,網路爬蟲剖析,以Pyspider為例 , Scrapy 示例 —— Web 爬蟲框架 。
  專案地址:
  https://github.com/binux/pyspider
  PyQuery - 是 Python 仿照 jQuery 的嚴格實現。語法與 jQuery 幾乎完全相同,所以不用再去費心去記一些奇怪的方法了。python爬蟲神器PyQuery的使用方法。
  專案地址:
  https://github.com/gawel/pyquery
  distribute_crawler - 使用scrapy,redis,mongodb,graphite實現的一個分散式網路爬蟲。
  專案地址:
  https://github.com/gnemoug/distribute_crawler
  youtube-dl - 一個可從YouTube等網站下載視訊的開源神器,採用Python開發,支援多個OS平臺,支援眾多視訊網站國內優酷、土豆、新浪和搜狐,國外YouTube等赫然在列。
  專案地址:
  https://github.com/rg3/youtube-dl//
  you-get - 能幫你快速爬取你想要的一切,支援64個網站,包括優酷、土豆、愛奇藝、b站、酷狗音樂、蝦米。
  專案地址:
  https://github.com/soimort/you-get/
  Lulu - You-get的一個友好分叉(fork), 類似網路爬蟲的簡單下載程式。
  專案地址:
  https://github.com/iawia002/Lulu
  pytube - 一個非常嚴謹、輕量級、無依賴性的用於下載youtube視訊的python庫。
  專案地址:
  http://www.pythonzxw.com
  python專業學習論壇,每日大量更新python學習教程。
  專案地址:
  https://github.com/nficano/pytube
  meizi_spider - 獲取慕課網視訊教程,基於Scrapy(0.22)。
  專案地址:
  https://github.com/lpe234/meizi_spider
  spider_smooc - 爬取慕課網視訊 ,使用BeautifulSoup模組解析html。
  專案地址:
  https://github.com/qiyeboy/spider_smooc
  proxy_pool - 爬蟲代理池,爬去取網上免費的代理IP。
  專案地址:
  https://github.com/jhao104/proxy_pool
  Amazon-scraper-Python - 一款非官方的爬取工具,能夠獲取亞馬遜上在售商品的資訊,比如商品排名和評論數量。
  專案地址:
  https://github.com/tducret/amazon-scraper-python
  Douyin-Bot - Python 抖音機器人,論如何在抖音上找到漂亮小姐姐?
  專案地址:
  https://github.com/wangshub/Douyin-Bot
  DouYin - 不到 10 行程式碼完成抖音熱門視訊的爬取!
  專案地址:
  https://github.com/Python3WebSpider/DouYin
  Sotawhat - arxiv論文爬蟲,只需輸入論文關鍵詞,就會為你抓取arxiv上的論文並總結摘要,讓你輕鬆同步最新研究結果。
  專案地址:
  https://github.com/chiphuyen/sotawhat
  Gerapy - 國人開發的,分散式的爬蟲管理框架,基於Scrapy, Scrapyd, Scrapyd-Client, Scrapyd-API, Django and Vue.js 技術!
  專案地址:
  https://github.com/Gerapy/Gerapy
  Crawlab - 基於Celery的爬蟲分散式爬蟲管理平臺,支援多種程式語言以及多種爬蟲框架.
  專案地址:
  https://github.com/tikazyq/crawlab
  awesome-python-login-model - 模擬登陸一些大型網站,還有一些簡單的爬蟲。
  專案地址:
  https://github.com/CriseLYJ/awesome-python-login-model
  Pyppeteer - Pyppeteer其實是Puppeteer的Python版本,,Puppeteer是谷歌出品的一款基於Node.js開發的一款工具,主要是用來操縱Chrome瀏覽器的 API,通過Javascript程式碼來操縱Chrome瀏覽器,完成資料爬取、Web程式自動測試等任務。
  專案地址:
  https://github.com/miyakogi/pyppeteer
  python_12306 - 用python實現的12306搶票小工具。
  專案地址:
  https://github.com/versionzhang/python_12306
  py12306 - 12306 購票助手,支援叢集,多賬號,多工購票以及 Web 頁面管理。
  專案地址:
  https://github.com/pjialin/py12306
  12306 - 12306智慧刷票,訂票,分散式、多賬號、多工購票。
  專案地址:
  https://github.com/testerSunshine/12306

相關文章