爬蟲資料是如何收集和整理的？

陽子發表於2022-11-24

原文網址 : https://segmentfault.com/a/1190000042230585?sort=votes

有使用者一直好奇爬蟲識別網站上的爬蟲資料是如何整理的，今天就更大家來揭秘爬蟲資料是如何收集整理的。

透過查詢 IP 地址來獲得 rDNS 方式

我們可以透過爬蟲的 IP 地址來反向查詢 rDNS，例如：我們透過反向 DNS 查詢工具查詢此 IP: 116.179.32.160 ,rDNS 為：baiduspider-116-179-32-160.crawl.baidu.com

從上面大致可以判斷應該是百度搜尋引擎蜘蛛。由於 Hostname 可以偽造，所以我們只有反向查詢，仍然不準確。我們還需要正向查詢，我們透過 ping 命令查詢 baiduspider-116-179-32-160.crawl.baidu.com 能否被解析為：116.179.32.160，透過下圖可以看出 baiduspider-116-179-32-160.crawl.baidu.com 被解析為 116.179.32.160 的 IP 地址，說明是百度搜尋引擎爬蟲確信無疑。

title=

透過 ASN 相關資訊查詢

並不是所有爬蟲都遵守上面的規定，大部分爬蟲反向查詢沒有任何結果，我們需要查詢 IP 地址的 ASN 資訊來判斷爬蟲資訊是不是正確。

例如：這個 IP 是 74.119.118.20，我們透過查詢 IP 資訊可以看到這個 IP 地址是美國加利福尼亞桑尼維爾的 IP 地址。

title=

透過 ASN 資訊我們可以看出來他是 Criteo Corp. 公司的 IP。

title=

上面的截圖是透過日誌記錄檢視到 critieo crawler 的記錄資訊，黃色部分是它的 User-agent ，後面是它的 IP，這條記錄也沒有什麼問題（這個 IP 的確是
CriteoBot 的 IP 地址）。

透過爬蟲的官方文件公佈的 IP 地址段

有一些爬蟲會公佈 IP 地址段，我們會將官方公佈的爬蟲 IP 地址段直接儲存到資料庫，這是一種既簡單又快捷的方法。

透過公開日誌

我們經常可以在網際網路上檢視到公開日誌，例如下圖就是我找到的公開日誌記錄：

title=

我們可以對日誌記錄進行解析，根據 User-agent 來判斷那些是爬蟲，那些是訪客，極大的豐富了我們的爬蟲記錄資料庫。

總結

透過以上四個方式詳細說明了爬蟲識別網站是如何收集和整理爬蟲資料的，同時如何確保爬蟲資料的準確可靠，當然在實際操作過程中不僅僅是以上四種方法，不過都使用的比較少，所以在此處也不做介紹。

相關文章

爬蟲技術解析：如何有效地收集網路資料
2023-11-24
爬蟲
爬蟲可以通過代理ip收集哪些資料？
2022-05-21
爬蟲
爬蟲爬取資料如何繞開限制？
2022-06-10
爬蟲
python爬蟲總是爬不到資料，你需要解決反爬蟲了
2020-06-26
Python爬蟲
如何保障爬蟲高效穩定爬取資料？
2022-05-27
爬蟲
Python爬蟲是如何實現的？
2022-07-15
Python爬蟲
爬蟲代理是如何執行的？
2022-06-09
爬蟲
常用python爬蟲框架整理
2018-07-16
Python爬蟲框架
爬蟲學習整理（3）資料儲存——Python對MySql操作
2020-09-26
爬蟲PythonMySql
爬蟲如何爬取貓眼電影TOP榜資料
2019-06-17
爬蟲
最新Python爬蟲和資料視覺化
2020-12-12
Python爬蟲視覺化
「資料分析」2種常見的反爬蟲策略，資訊驗證和動態反爬蟲
2022-02-23
爬蟲
什麼是爬蟲?爬蟲的工作原理是什麼呢
2020-05-27
爬蟲
爬蟲是如何被網站識別的？
2022-04-28
爬蟲網站
Python爬蟲如何去抓取qq音樂的歌手資料？
2021-03-19
Python爬蟲
每秒採集幾十萬資料的大規模分散式爬蟲是如何煉成的？
2022-04-16
分散式爬蟲
爬蟲資料採集的工作原理
2022-06-29
爬蟲
爬蟲中資料清洗的選擇
2021-06-12
爬蟲
爬蟲原理與資料抓取
2020-12-17
爬蟲
爬蟲抓了那麼多的資料，該如何處理呢？
2019-06-24
爬蟲
爬蟲的小技巧之–如何尋找爬蟲入口
2018-03-05
爬蟲
網站如何判斷爬蟲在採集資料？
2022-06-06
網站爬蟲
[爬蟲手記] 我是如何在3分鐘內開發完一個爬蟲的
2019-05-27
爬蟲
什麼是爬蟲？Python爬蟲框架有哪些？
2022-04-18
爬蟲Python框架
什麼是爬蟲？Python爬蟲的工作流程怎樣?
2021-02-01
爬蟲Python
輕鬆利用Python爬蟲爬取你想要的資料
2021-09-10
Python爬蟲
【0基礎學爬蟲】爬蟲基礎之資料儲存
2023-04-14
爬蟲
爬蟲（6） - 網頁資料解析(2) | BeautifulSoup4在爬蟲中的使用
2022-07-04
爬蟲網頁
再續：網路爬蟲的法律邊界和資料風險
2018-12-24
爬蟲
爬蟲實戰——58同城租房資料爬取
2019-12-04
爬蟲
什麼是爬蟲？Python爬蟲工程師崗位
2021-05-17
爬蟲Python工程師
Python爬蟲之資料解析（XPath）
2018-12-18
Python爬蟲
企業資料爬蟲專案
2018-10-05
爬蟲
Python【爬蟲實戰】提取資料
2020-11-17
Python爬蟲
爬蟲抓取網頁資料原理
2021-12-06
爬蟲網頁
爬蟲-使用lxml解析html資料
2021-01-20
爬蟲XMLHTML
Python爬蟲教程-18-頁面解析和資料提取
2018-09-06
Python爬蟲
網路爬蟲如何獲取IP進行資料抓取
2022-05-19
爬蟲