通用爬蟲技術框架爬蟲系統首先會從網際網路頁面中精心選擇一部分網頁，然後以這些網頁的連結地址作為種子URL，再將這些種子放入待抓取URL佇列中，之後爬蟲從待抓取URL佇列依次讀取，並通過DNS解析 URL，再將連結地址轉換為網站伺服器對應的IP地址。

然後將其和網頁相對路徑名稱交給網頁下載器處理，網頁下載器則負責頁面的下載。對於下載到本地的網頁，一邊將其儲存到頁面庫中，等待建立索引等後續處理，另一邊將下載網頁的URL 放入已抓取佇列中，這個佇列即記錄了爬蟲系統已經下載過的網頁URL ，可以以此避免系統的重複抓取。

對於剛下載過的網頁，從中可以抽取出包含的所有連結資訊，並在已下載的URL 佇列中進行檢查，如果發現還沒有被抓取過的連結，則會放到待抓取URL 佇列的末尾，在之後的抓取排程中再次下載這個URL 對應的網頁。

如此迴圈，直到待抓取URL 佇列為空，這代表著爬蟲系統將能夠抓取的網頁已經被悉數抓完，此時又完成了一輪完整的抓取過程。

品易雲全球HTTP 已向多知名網站提供服務，支援 API 批量使用，支援多執行緒高併發使用。

通用爬蟲技術框架是什麼？

相關文章