104個實用網路爬蟲專案資源整理(超全)
*不帶括弧註明的預設都是 Python爬蟲
因為頭條對外鏈不支援等其他原因,上圖所有爬蟲專案地址可在實驗樓微信公眾號(實驗樓)後臺回覆關鍵字 “爬蟲” 獲取。以下為字母順序的列表:
A
- 暗網爬蟲(Go)
B
- Bilibili 使用者 | Bilibili 小視訊 | B站760萬視訊資訊爬蟲
- Bing美圖爬蟲
- 部落格園(node.js)
- 百度百科(node.js)
- 百度雲網盤
- Boss 直聘
- 部落格園
D
- 豆瓣讀書 | 豆瓣爬蟲集 | 豆瓣害羞組
- DNS記錄和子域名
- DHT網路磁力種子爬蟲
- 抖音
G
- Girl-atlas
- girl13
- GitHub trending
- GitHub 倉庫及使用者分析爬蟲
H
- HDOJ爬蟲
I
- INC500 世界5000強爬蟲
J
- 京東
- 京東搜尋+評論
- 京東商品+評論
- 機票
- 煎蛋妹紙
- 煎蛋妹紙selenium版本
- 今日頭條,網易,騰訊等新聞
- 計算機書籍控圖書
K
- 看知乎
- konachan
L
- 鏈家
- 鏈家成交在售在租房源
- 拉勾
- 爐石傳說
- leetcode
- 領英銷售導航器爬蟲 LinkedInSalesNavigator
M
- 馬蜂窩 使用者足跡
- MyCar
- 漫畫喵 一鍵下載漫畫~
- MM131性感美女寫真圖全爬取
- 美女寫真套圖爬蟲 (一)(二)(三)
- 妹子圖
- 貓眼網電影評分
N
- 新聞監控
- 你好汙啊
P
- Pixiv
- PornHub
- packtpub
- 91porn
Q
- QQ空間
- QQ 群
- 清華大學網路學堂爬蟲
- 去哪兒
- 前程無憂Python招聘崗位資訊爬取分析
R
- 人人影視
- RSS 爬蟲
- rosi 妹子圖
- reddit 桌布
S
- soundcloud
- Stackoverflow 100萬問答爬蟲
- Shadowsocks 賬號爬蟲
- spider163 網易雲音樂爬蟲
- 時光網電影資料和海報爬蟲
T
- tumblr
- 下載tumblr喜歡內容
- TuShare
- 天貓雙12爬蟲
- Taobao mm
- Tmall 女性文胸尺碼爬蟲
- 淘寶直播彈幕爬蟲(node)
- 天涯論壇文章
V
- Youtube字幕下載
- 視訊資訊爬蟲
- 電影網站
W
- 烏雲公開漏洞
- 微信公眾號
- “代理”方式抓取微信公眾號文章
- 網易新聞
- 網易精彩評論
- 微博主題搜尋分析
- 網易雲音樂
- 新.網易熱評
- 唯品會商品
X
- 雪球股票資訊(java)
- 新浪微博
- 新浪微博分散式爬蟲
- 心靈毒雞湯
Y
- 英美劇 TV (node.js)
Z
- ZOL 手機桌布爬蟲
- 知乎(python)
- 知乎(php)
- 知網
- 知乎妹子
- 自如實時房源提醒
其他
- 各大門戶服務網站爬蟲
- DHT 爬蟲
- SimDHT
- p2pspider
- 80s 影視資源爬蟲 - JianSo_Movie
什麼是爬蟲
爬蟲是一種可以爬取指定網站頁面的指定資訊的應用程式,通過爬蟲,我們可以獲取網站中我們需要的資料。
爬蟲的核心邏輯包括以下幾個步驟:
- 通過一個 URI 地址,模擬類似瀏覽器的行為獲取這個 URI 地址對應的 HTML 頁面,部分爬蟲甚至還可以支援 JavaScript 的執行。
- 獲取之後通過頁面解析,從頁面中的指定的 HTML 標籤下提取得到我們需要的資料。
- 對資料進行處理之後存入指定的儲存,比如檔案系統,MySQL 等關係型資料庫,Redis,MongoDB 等 NoSQL 資料庫中。
- 繼續爬取其他的 URI 地址,這些 URI 地址可以從之前爬取得到的頁面中提取,也可以通過一個 URI 庫直接由啟動爬蟲的使用者來輸入。
- 繼續回到步驟1爬取並分析頁面。
爬蟲技術目前經常遇到的難點問題:
登入及驗證碼:有些頁面在爬取的過程中,經常會遇到頁面的互動操作,比如需要你輸入使用者名稱及密碼進行登入才可以獲取,有的網站還會提供驗證碼進行驗證,這一類的資料獲取都非常不容易。
JavaScript 等非同步資料:部分網頁的資料並不是在網頁載入後就能夠獲得的,需要執行 JavaScript 來獲取然後再更新到網頁,這種情況下部分爬蟲是無法爬取到的。通常會採用的解決方案是模擬瀏覽器去訪問頁面並執行 JavaScript 後獲得完整的資料再進行頁面解析。
反爬措施:有些網站會禁止無限制的爬取,會對 IP 地址及 User Agent 等爬蟲標誌進行限制,避免網站因為爬蟲造成壓力過大或者資訊洩漏。在這種情況下,很多爬蟲會選擇進行 User Agent 偽裝或者 IP 代理池的機制。
什麼是通用爬蟲?
這裡所說的通用爬蟲指的是能夠爬取任何網站頁面的爬蟲,常見的爬蟲都是特定的爬蟲,特定爬蟲需要根據爬取的目標網站進行設計實現。比如知乎爬蟲或者豆瓣爬蟲,這一類的文章在網上可以找到很多,都會針對於知乎及豆瓣的特定頁面進行分析,並設計爬蟲的實現邏輯。
相關文章
- Python網路爬蟲實戰專案大全 32個Python爬蟲專案demoPython爬蟲
- 網路爬蟲專案爬蟲
- 精通Scrapy網路爬蟲【一】第一個爬蟲專案爬蟲
- 網路爬蟲(python專案)爬蟲Python
- 專案--python網路爬蟲Python爬蟲
- Python網路爬蟲實戰小專案Python爬蟲
- Python網路爬蟲實戰專案大全!Python爬蟲
- 資源整理 | 32個Python爬蟲專案讓你一次吃到撐Python爬蟲
- 2019最新《網路爬蟲JAVA專案實戰》爬蟲Java
- python網路爬蟲應用_python網路爬蟲應用實戰Python爬蟲
- 這 6 個爬蟲開源專案 yyds爬蟲
- 用Python網路爬蟲獲取Mikan動漫資源Python爬蟲
- 網路爬蟲——專案實戰(爬取糗事百科所有文章)爬蟲
- python爬蟲-33個Python爬蟲專案實戰(推薦)Python爬蟲
- 網路爬蟲——爬蟲實戰(一)爬蟲
- 最新《30小時搞定Python網路爬蟲專案實戰》Python爬蟲
- 網路爬蟲——Urllib模組實戰專案(含程式碼)爬取你的第一個網站爬蟲網站
- Python爬蟲開源專案合集Python爬蟲
- 網路爬蟲專案開發日誌(三):爬蟲上線準備爬蟲
- Python爬蟲小專案:爬一個圖書網站Python爬蟲網站
- 精通 Python 網路爬蟲:核心技術、框架與專案實戰Python爬蟲框架
- 推薦13個.Net開源的網路爬蟲爬蟲
- python爬蟲初探--第一個python爬蟲專案Python爬蟲
- 課程設計:python_網路爬蟲專案Python爬蟲
- 大資料爬蟲專案實戰教程大資料爬蟲
- python網路爬蟲_Python爬蟲:30個小時搞定Python網路爬蟲視訊教程Python爬蟲
- 爬蟲實戰專案集合爬蟲
- 爬蟲專案實戰(一)爬蟲
- 爬蟲實戰專案合集爬蟲
- Java 爬蟲專案實戰之爬蟲簡介Java爬蟲
- Python靜態網頁爬蟲專案實戰Python網頁爬蟲
- 視訊教程-Python網路爬蟲開發與專案實戰-PythonPython爬蟲
- Python網路爬蟲實戰Python爬蟲
- 爬蟲專案:大麥網分析爬蟲
- 爬蟲專案爬蟲
- 32個Python爬蟲專案demoPython爬蟲
- python爬蟲實操專案_Python爬蟲開發與專案實戰 1.6 小結Python爬蟲
- [Python] 網路爬蟲與資訊提取(1) 網路爬蟲之規則Python爬蟲