104個實用網路爬蟲專案資源整理(超全)

1024小神發表於2019-04-16

104個實用網路爬蟲專案資源整理(超全)

*不帶括弧註明的預設都是 Python爬蟲

因為頭條對外鏈不支援等其他原因,上圖所有爬蟲專案地址可在實驗樓微信公眾號(實驗樓)後臺回覆關鍵字 “爬蟲” 獲取。以下為字母順序的列表:

A

  • 暗網爬蟲(Go)

B

  • Bilibili 使用者 | Bilibili 小視訊 | B站760萬視訊資訊爬蟲
  • Bing美圖爬蟲
  • 部落格園(node.js)
  • 百度百科(node.js)
  • 百度雲網盤
  • Boss 直聘
  • 部落格園

D

  • 豆瓣讀書 | 豆瓣爬蟲集 | 豆瓣害羞組
  • DNS記錄和子域名
  • DHT網路磁力種子爬蟲
  • 抖音

G

  • Girl-atlas
  • girl13
  • GitHub trending
  • GitHub 倉庫及使用者分析爬蟲

H

  • HDOJ爬蟲

I

  • Instagram
  • INC500 世界5000強爬蟲

J

  • 京東
  • 京東搜尋+評論
  • 京東商品+評論
  • 機票
  • 煎蛋妹紙
  • 煎蛋妹紙selenium版本
  • 今日頭條,網易,騰訊等新聞
  • 計算機書籍控圖書

K

  • 看知乎
  • konachan

L

  • 鏈家
  • 鏈家成交在售在租房源
  • 拉勾
  • 爐石傳說
  • leetcode
  • 領英銷售導航器爬蟲 LinkedInSalesNavigator

M

  • 馬蜂窩 使用者足跡
  • MyCar
  • 漫畫喵 一鍵下載漫畫~
  • MM131性感美女寫真圖全爬取
  • 美女寫真套圖爬蟲 (一)(二)(三)
  • 妹子圖
  • 貓眼網電影評分

N

  • 新聞監控
  • 你好汙啊

P

  • Pixiv
  • PornHub
  • packtpub
  • 91porn

Q

  • QQ空間
  • QQ 群
  • 清華大學網路學堂爬蟲
  • 去哪兒
  • 前程無憂Python招聘崗位資訊爬取分析

R

  • 人人影視
  • RSS 爬蟲
  • rosi 妹子圖
  • reddit 桌布
  • reddit

S

  • soundcloud
  • Stackoverflow 100萬問答爬蟲
  • Shadowsocks 賬號爬蟲
  • spider163 網易雲音樂爬蟲
  • 時光網電影資料和海報爬蟲

T

  • tumblr
  • 下載tumblr喜歡內容
  • TuShare
  • 天貓雙12爬蟲
  • Taobao mm
  • Tmall 女性文胸尺碼爬蟲
  • 淘寶直播彈幕爬蟲(node)
  • 天涯論壇文章

V

  • Youtube字幕下載
  • 視訊資訊爬蟲
  • 電影網站

W

  • 烏雲公開漏洞
  • 微信公眾號
  • “代理”方式抓取微信公眾號文章
  • 網易新聞
  • 網易精彩評論
  • 微博主題搜尋分析
  • 網易雲音樂
  • 新.網易熱評
  • 唯品會商品

X

  • 雪球股票資訊(java)
  • 新浪微博
  • 新浪微博分散式爬蟲
  • 心靈毒雞湯

Y

  • 英美劇 TV (node.js)

Z

  • ZOL 手機桌布爬蟲
  • 知乎(python)
  • 知乎(php)
  • 知網
  • 知乎妹子
  • 自如實時房源提醒

其他

  • 各大門戶服務網站爬蟲
  • DHT 爬蟲
  • SimDHT
  • p2pspider
  • 80s 影視資源爬蟲 - JianSo_Movie

什麼是爬蟲

爬蟲是一種可以爬取指定網站頁面的指定資訊的應用程式,通過爬蟲,我們可以獲取網站中我們需要的資料。

爬蟲的核心邏輯包括以下幾個步驟:

  • 通過一個 URI 地址,模擬類似瀏覽器的行為獲取這個 URI 地址對應的 HTML 頁面,部分爬蟲甚至還可以支援 JavaScript 的執行。
  • 獲取之後通過頁面解析,從頁面中的指定的 HTML 標籤下提取得到我們需要的資料。
  • 對資料進行處理之後存入指定的儲存,比如檔案系統,MySQL 等關係型資料庫,Redis,MongoDB 等 NoSQL 資料庫中。
  • 繼續爬取其他的 URI 地址,這些 URI 地址可以從之前爬取得到的頁面中提取,也可以通過一個 URI 庫直接由啟動爬蟲的使用者來輸入。
  • 繼續回到步驟1爬取並分析頁面。

爬蟲技術目前經常遇到的難點問題:

登入及驗證碼:有些頁面在爬取的過程中,經常會遇到頁面的互動操作,比如需要你輸入使用者名稱及密碼進行登入才可以獲取,有的網站還會提供驗證碼進行驗證,這一類的資料獲取都非常不容易。

JavaScript 等非同步資料:部分網頁的資料並不是在網頁載入後就能夠獲得的,需要執行 JavaScript 來獲取然後再更新到網頁,這種情況下部分爬蟲是無法爬取到的。通常會採用的解決方案是模擬瀏覽器去訪問頁面並執行 JavaScript 後獲得完整的資料再進行頁面解析。

反爬措施:有些網站會禁止無限制的爬取,會對 IP 地址及 User Agent 等爬蟲標誌進行限制,避免網站因為爬蟲造成壓力過大或者資訊洩漏。在這種情況下,很多爬蟲會選擇進行 User Agent 偽裝或者 IP 代理池的機制。

什麼是通用爬蟲?

這裡所說的通用爬蟲指的是能夠爬取任何網站頁面的爬蟲,常見的爬蟲都是特定的爬蟲,特定爬蟲需要根據爬取的目標網站進行設計實現。比如知乎爬蟲或者豆瓣爬蟲,這一類的文章在網上可以找到很多,都會針對於知乎及豆瓣的特定頁面進行分析,並設計爬蟲的實現邏輯。

104個實用網路爬蟲專案資源整理(超全)

相關文章