一篇文章帶你瞭解網路爬蟲的概念及其工作原理

weixin_34007291發表於2019-01-25

原文網址 : https://blog.csdn.net/weixin_34007291/article/details/87307089

眾所周知，隨著計算機、網際網路、物聯網、雲端計算等網路技術的風起雲湧，網路上的資訊呈爆炸式增長。毋庸置疑，網際網路上的資訊幾乎囊括了社會、文化、政治、經濟、娛樂等所有話題。使用傳統資料收集機制（如問卷調查法、訪談法）進行捕獲和採集資料，往往會受經費和地域範圍所限，而且還會因其樣本容量小、信度低等因素導致收集的資料往往與客觀事實有所偏頗，有著較大的侷限性。

網路爬蟲通過統一資源定位符URL (Uniform ResourceLocator)來查詢目標網頁，將使用者所關注的資料內容直接返回給使用者，並不需要使用者以瀏覽網頁的形式去獲取資訊，為使用者節省了時間和精力，並提高了資料採集的準確度，使使用者在海量資料中游刃有餘。網路爬蟲的最終目的就是從網頁中獲取自己所需的資訊。雖然利用urllib、urllib2、re等一些爬蟲基本庫可以開發一個爬蟲程式，獲取到所需的內容，但是所有的爬蟲程式都以這種方式進行編寫，工作量未免太大了些，所有才有了爬蟲框架。使用爬蟲框架可以大大提高效率，縮短開發時間。

網路爬蟲（web crawler）又稱為網路蜘蛛（web spider）或網路機器人（web robot），另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或蠕蟲，同時它也是“物聯網”概念的核心之一。網路爬蟲本質上是一段計算機程式或指令碼，其按照一定的邏輯和演算法規則自動地抓取和下載全球資訊網的網頁，是搜尋引擎的一個重要組成部分。

網路爬蟲一般是根據預先設定的一個或若干個初始網頁的URL開始，然後按照一定的規則爬取網頁，獲取初始網頁上的URL列表，之後每當抓取一個網頁時，爬蟲會提取該網頁新的URL並放入到未爬取的佇列中去，然後迴圈的從未爬取的佇列中取出一個URL再次進行新一輪的爬取，不斷的重複上述過程，直到佇列中的URL抓取完畢或者達到其他的既定條件，爬蟲才會結束。具體流程如下圖所示。

隨著網際網路資訊的與日俱增，利用網路爬蟲工具來獲取所需資訊必有用武之地。使用網路爬蟲來採集資訊，不僅可以實現對web上資訊的高效、準確、自動的獲取，還利於公司或者研究人員等對採集到的資料進行後續的挖掘分析。

什麼是Python爬蟲？一篇文章帶你全面瞭解爬蟲
2022-02-21
Python爬蟲
一篇帶你瞭解TCP/IP 概念
2021-07-25
TCP
一篇文章瞭解爬蟲技術現狀
2019-03-03
爬蟲
深度神經網路成長記：帶你瞭解它的工作原理！
2019-02-15
神經網路
網路爬蟲的工作原理是什麼
2022-05-30
爬蟲
一篇文章帶你瞭解——Kotlin協程
2021-10-30
Kotlin
網路爬蟲的原理
2018-12-02
爬蟲
一篇文章帶你瞭解介面自動化
2023-11-20
一篇文章帶你瞭解HTML5 MathML
2020-10-29
HTML
一篇文章帶你瞭解和使用Promise物件
2020-11-09
Promise物件
一篇文章帶你初步瞭解—CSS特指度
2021-01-28
CSS
一篇文章帶你瞭解HTML格式化元素
2021-09-09
HTML
一篇文章帶你瞭解CSS 分頁例項
2021-09-09
CSS
一篇文章帶你瞭解高可用架構分析
2023-01-05
架構
爬蟲帶你瞭解一下Golang的市場行情
2018-04-28
爬蟲Golang
python爬蟲瞭解第一篇
2019-02-16
Python爬蟲
一篇文章帶你吃透 Docker 原理
2020-06-03
Docker
一篇文章瞭解RPC框架原理
2018-12-03
RPC框架
一篇文章教會你使用Python網路爬蟲下載酷狗音樂
2020-10-12
Python爬蟲
網路爬蟲基本原理詳解
2022-07-08
爬蟲
基本的爬蟲工作原理
2023-11-24
爬蟲
一文帶你深入瞭解 Redis 的持久化方式及其原理
2019-11-20
Redis持久化
一篇文章帶你瞭解設計模式——建立者模式
2023-01-31
設計模式
Python爬蟲帶你瞭解網友們對周董新歌《說好不哭》的看法
2021-09-11
Python爬蟲
一篇文章帶你瞭解高質量代理ip的使用技巧
2021-09-11
一篇文章教會你利用Python網路爬蟲實現豆瓣電影採集
2021-09-09
Python爬蟲
一篇文章帶你瞭解Python基礎測試工具——UnitTest
2023-11-12
Python
一篇文章帶你瞭解如何測試訊息佇列
2024-11-08
佇列
一篇文章帶你瞭解設計模式——結構型模式
2023-02-02
設計模式
你真的瞭解python嗎?這篇文章帶你快速瞭解!
2020-08-24
Python
一篇文章帶你瞭解設計模式原理——UML圖和軟體設計原則
2022-12-28
設計模式
一篇瞭解怎麼使用爬蟲代理IP
2021-09-11
爬蟲
爬蟲入門經典(六) | 一文帶你深入瞭解為什麼使用代理IP及其如何使用
2020-10-23
爬蟲
網路爬蟲技術是什麼，網路爬蟲的基本工作流程是什麼？
2019-03-03
爬蟲
詳解爬蟲與RPA的工作原理和差異
2020-04-14
爬蟲
一篇文章帶你瞭解Python常用自動化測試框架——Pytest
2023-11-13
Python框架
什麼是工藝流程圖？一篇文章帶你詳細瞭解
2019-09-05
流程圖
一篇文章帶你更深入瞭解區塊鏈有哪些應用？
2019-08-26
區塊鏈

一篇文章帶你瞭解網路爬蟲的概念及其工作原理

相關文章