104個實用網路爬蟲專案資源整理（超全）

1024小神發表於2019-04-16

原文網址 : https://xiaoshen.blog.csdn.net/article/details/89308274

爬蟲

*不帶括弧註明的預設都是 Python爬蟲

因為頭條對外鏈不支援等其他原因，上圖所有爬蟲專案地址可在實驗樓微信公眾號（實驗樓）後臺回覆關鍵字 “爬蟲” 獲取。以下為字母順序的列表：

暗網爬蟲(Go)

Bilibili 使用者 | Bilibili 小視訊 | B站760萬視訊資訊爬蟲
Bing美圖爬蟲
部落格園(node.js)
百度百科(node.js)
百度雲網盤
Boss 直聘
部落格園

豆瓣讀書 | 豆瓣爬蟲集 | 豆瓣害羞組
DNS記錄和子域名
DHT網路磁力種子爬蟲
抖音

Girl-atlas
girl13
GitHub trending
GitHub 倉庫及使用者分析爬蟲

HDOJ爬蟲

Instagram
INC500 世界5000強爬蟲

京東
京東搜尋+評論
京東商品+評論
機票
煎蛋妹紙
煎蛋妹紙selenium版本
今日頭條，網易，騰訊等新聞
計算機書籍控圖書

看知乎
konachan

鏈家
鏈家成交在售在租房源
拉勾
爐石傳說
leetcode
領英銷售導航器爬蟲 LinkedInSalesNavigator

馬蜂窩使用者足跡
MyCar
漫畫喵一鍵下載漫畫~
MM131性感美女寫真圖全爬取
美女寫真套圖爬蟲（一）（二）（三）
妹子圖
貓眼網電影評分

新聞監控
你好汙啊

Pixiv
PornHub
packtpub
91porn

QQ空間
QQ 群
清華大學網路學堂爬蟲
去哪兒
前程無憂Python招聘崗位資訊爬取分析

人人影視
RSS 爬蟲
rosi 妹子圖
reddit 桌布
reddit

soundcloud
Stackoverflow 100萬問答爬蟲
Shadowsocks 賬號爬蟲
spider163 網易雲音樂爬蟲
時光網電影資料和海報爬蟲

tumblr
下載tumblr喜歡內容
TuShare
天貓雙12爬蟲
Taobao mm
Tmall 女性文胸尺碼爬蟲
淘寶直播彈幕爬蟲(node)
天涯論壇文章

Youtube字幕下載
視訊資訊爬蟲
電影網站

烏雲公開漏洞
微信公眾號
“代理”方式抓取微信公眾號文章
網易新聞
網易精彩評論
微博主題搜尋分析
網易雲音樂
新.網易熱評
唯品會商品

雪球股票資訊(java)
新浪微博
新浪微博分散式爬蟲
心靈毒雞湯

英美劇 TV (node.js)

ZOL 手機桌布爬蟲
知乎(python)
知乎(php)
知網
知乎妹子
自如實時房源提醒

其他

各大門戶服務網站爬蟲
DHT 爬蟲
SimDHT
p2pspider
80s 影視資源爬蟲 - JianSo_Movie

什麼是爬蟲

爬蟲是一種可以爬取指定網站頁面的指定資訊的應用程式，通過爬蟲，我們可以獲取網站中我們需要的資料。

爬蟲的核心邏輯包括以下幾個步驟：

通過一個 URI 地址，模擬類似瀏覽器的行為獲取這個 URI 地址對應的 HTML 頁面，部分爬蟲甚至還可以支援 JavaScript 的執行。

獲取之後通過頁面解析，從頁面中的指定的 HTML 標籤下提取得到我們需要的資料。

對資料進行處理之後存入指定的儲存，比如檔案系統，MySQL 等關係型資料庫，Redis，MongoDB 等 NoSQL 資料庫中。

繼續爬取其他的 URI 地址，這些 URI 地址可以從之前爬取得到的頁面中提取，也可以通過一個 URI 庫直接由啟動爬蟲的使用者來輸入。

繼續回到步驟1爬取並分析頁面。

爬蟲技術目前經常遇到的難點問題：

登入及驗證碼：有些頁面在爬取的過程中，經常會遇到頁面的互動操作，比如需要你輸入使用者名稱及密碼進行登入才可以獲取，有的網站還會提供驗證碼進行驗證，這一類的資料獲取都非常不容易。

JavaScript 等非同步資料：部分網頁的資料並不是在網頁載入後就能夠獲得的，需要執行 JavaScript 來獲取然後再更新到網頁，這種情況下部分爬蟲是無法爬取到的。通常會採用的解決方案是模擬瀏覽器去訪問頁面並執行 JavaScript 後獲得完整的資料再進行頁面解析。

反爬措施：有些網站會禁止無限制的爬取，會對 IP 地址及 User Agent 等爬蟲標誌進行限制，避免網站因為爬蟲造成壓力過大或者資訊洩漏。在這種情況下，很多爬蟲會選擇進行 User Agent 偽裝或者 IP 代理池的機制。

什麼是通用爬蟲？

這裡所說的通用爬蟲指的是能夠爬取任何網站頁面的爬蟲，常見的爬蟲都是特定的爬蟲，特定爬蟲需要根據爬取的目標網站進行設計實現。比如知乎爬蟲或者豆瓣爬蟲，這一類的文章在網上可以找到很多，都會針對於知乎及豆瓣的特定頁面進行分析，並設計爬蟲的實現邏輯。

104個實用網路爬蟲專案資源整理（超全）

Python網路爬蟲實戰專案大全 32個Python爬蟲專案demo
2019-04-24
Python爬蟲
網路爬蟲專案
2022-01-29
爬蟲
精通Scrapy網路爬蟲【一】第一個爬蟲專案
2021-06-19
爬蟲
網路爬蟲（python專案）
2018-12-04
爬蟲Python
專案－－python網路爬蟲
2020-08-15
Python爬蟲
Python網路爬蟲實戰小專案
2021-04-12
Python爬蟲
Python網路爬蟲實戰專案大全！
2020-12-19
Python爬蟲
資源整理 | 32個Python爬蟲專案讓你一次吃到撐
2018-03-03
Python爬蟲
2019最新《網路爬蟲JAVA專案實戰》
2019-05-09
爬蟲Java
python網路爬蟲應用_python網路爬蟲應用實戰
2020-12-29
Python爬蟲
這 6 個爬蟲開源專案 yyds
2021-10-22
爬蟲
用Python網路爬蟲獲取Mikan動漫資源
2020-08-26
Python爬蟲
網路爬蟲——專案實戰（爬取糗事百科所有文章）
2020-02-07
爬蟲
python爬蟲-33個Python爬蟲專案實戰(推薦)
2020-10-28
Python爬蟲
網路爬蟲——爬蟲實戰（一）
2022-01-29
爬蟲
最新《30小時搞定Python網路爬蟲專案實戰》
2020-02-18
Python爬蟲
網路爬蟲——Urllib模組實戰專案（含程式碼）爬取你的第一個網站
2020-02-12
爬蟲網站
Python爬蟲開源專案合集
2020-06-04
Python爬蟲
網路爬蟲專案開發日誌（三）：爬蟲上線準備
2022-02-02
爬蟲
Python爬蟲小專案：爬一個圖書網站
2018-11-21
Python爬蟲網站
精通 Python 網路爬蟲：核心技術、框架與專案實戰
2018-11-06
Python爬蟲框架
推薦13個.Net開源的網路爬蟲
2018-05-06
爬蟲
python爬蟲初探--第一個python爬蟲專案
2018-05-18
Python爬蟲
課程設計：python_網路爬蟲專案
2021-03-09
Python爬蟲
大資料爬蟲專案實戰教程
2018-11-14
大資料爬蟲
python網路爬蟲_Python爬蟲：30個小時搞定Python網路爬蟲視訊教程
2020-10-21
Python爬蟲
Java 爬蟲專案實戰之爬蟲簡介
2018-11-24
Java爬蟲
爬蟲實戰專案集合
2019-02-28
爬蟲
爬蟲專案實戰（一）
2020-06-15
爬蟲
爬蟲實戰專案合集
2022-01-25
爬蟲
Python靜態網頁爬蟲專案實戰
2020-05-01
Python網頁爬蟲
視訊教程-Python網路爬蟲開發與專案實戰-Python
2020-05-28
Python爬蟲
Python網路爬蟲實戰
2022-03-18
Python爬蟲
爬蟲專案:大麥網分析
2019-08-22
爬蟲
32個Python爬蟲專案demo
2018-08-26
Python爬蟲
爬蟲專案
2019-06-07
爬蟲
python爬蟲實操專案_Python爬蟲開發與專案實戰 1.6 小結
2021-02-04
Python爬蟲
[Python] 網路爬蟲與資訊提取（1）網路爬蟲之規則
2020-11-06
Python爬蟲

104個實用網路爬蟲專案資源整理（超全）

什麼是爬蟲

什麼是通用爬蟲？

相關文章