Python爬行動物（一）：基本概念

weixin_34067049發表於2015-06-16

定義網路爬蟲

網路爬蟲（Web Spider，也被稱為網路蜘蛛，網路機器人，也被稱為網頁追逐者）。按照一定的規則，維網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻，自己主動索引，模擬程式或者蠕蟲。

假設把網際網路比喻成一個蜘蛛網。那麼Spider就是在網上爬來爬去的蜘蛛。

網路蜘蛛是通過網頁的連結地址來尋找網頁的。從站點某一個頁面（一般是首頁）開始，讀取網頁的內容。找到在網頁中的其他連結地址，然後通過這些連結地址尋找下一個網頁，這樣一直迴圈下去，直到把這個站點全部的網頁都抓取完為止。假設把整個網際網路當成一個站點，那麼網路蜘蛛就能夠用這個原理把網際網路上全部的網頁都抓取下來。這樣看來，網路爬蟲就是一個爬行程式，一個抓取網頁的程式。

簡單地說，網路爬蟲的基本任務就是抓取網頁內容。

URL概念

抓取網頁的過程事實上和讀者平時使用IE瀏覽器瀏覽網頁的道理是一樣的。

比方說你在瀏覽器的位址列中輸入 www.baidu.com 這個地址。開啟網頁的過程事實上就是瀏覽器作為一個瀏覽的“client”，向server端傳送了一次請求。把server端的檔案“抓”到本地。再進行解釋、展現。

HTML是一種標記語言，用標籤標記內容並加以解析和區分。

瀏覽器的功能是將獲取到的HTML程式碼進行解析。然後將原始的程式碼轉變成我們直接看到的站點頁面。

在理解URL之前，首先要理解URI的概念。
Web上每種可用的資源。如 HTML文件、影象、視訊片段、程式等都由一個通用資源標誌符(Universal Resource Identifier。 URI)進行定位。 URI通常由三部分組成：
①訪問資源的命名機制；
②存放資源的主機名。
③資源自身的名稱，由路徑表示。
如URI：http://www.baidu.com.cn/myhtml/html1223/。我們能夠這樣解釋它：
①這是一個能夠通過HTTP協議訪問的資源，
②位於主機www.baidu.com.cn上，
③通過路徑“/html/html40”訪問。

URL的概念

URL是URI的一個子集。它是Uniform Resource Locator的縮寫，譯為“統一資源定位符”。通俗地說，URL是Internet上描寫敘述資訊資源的字串。主要用在各種WWW客戶程式和server程式上。採用URL能夠用一種統一的格式來描寫敘述各種資訊資源，包含檔案、server的地址和資料夾等。

URL演示樣例

1.HTTP協議的URL演示樣例：
使用超級文字傳輸協議HTTP。提供超級文字資訊服務的資源。

例：http://www.peopledaily.com.cn/channel/welcome.htm
其計算機域名為www.peopledaily.com.cn。
超級文字檔案(檔案型別為.html)是在資料夾 /channel下的welcome.htm。
這是中國人民日報的一臺計算機。

例：http://www.rol.cn.net/talk/talk1.htm
其計算機域名為www.rol.cn.net。
超級文字檔案(檔案型別為.html)是在資料夾/talk下的talk1.htm。
這是瑞得聊天室的地址，可由此進入瑞得聊天室的第1室。

2．檔案的URL
用URL表示檔案時，server方式用file表示。後面要有主機IP地址、檔案的存取路徑(即資料夾)和檔名稱等資訊。
有時能夠省略資料夾和檔名稱，但“/”符號不能省略。

例：file://ftp.yoyodyne.com/pub/files/foobar.txt
上面這個URL代表存放在主機ftp.yoyodyne.com上的pub/files/資料夾下的一個檔案。檔名稱是foobar.txt。

例：file://ftp.yoyodyne.com/pub
代表主機ftp.yoyodyne.com上的資料夾/pub。

案件：file://ftp.yoyodyne.com/
代主機ftp.yoyodyne.com根目錄資料夾。

2021-在物聯網上又爬行了一年
2021-12-16
GATHES的賽博爬行紀實
2024-05-10
python基礎教程（2）python的一些基本概念
2017-11-17
Python
GacUI基本概念（一）
2019-05-10
UI
MySQL基本概念【一】
2015-07-25
MySql
RocketMQ系列（一）基本概念
2020-06-03
MQ
RocketMQ-基本概念(一)
2024-04-22
MQ
Thrift原理分析(一)基本概念
2018-11-07
【機器學習】第一節 - 基本概念
2024-04-06
機器學習
python爬蟲系列（三）scrapy基本概念
2018-09-26
Python爬蟲
linux 裝置驅動基本概念
2020-12-17
Linux
dede織夢程式蜘蛛爬行記錄查詢外掛
2013-11-27
快速掌握RabbitMQ(一)——RabbitMQ的基本概念、安裝和C#驅動
2019-05-23
MQC#
一文了解Docker基本概念
2021-11-21
Docker
Oracle 的一些基本概念
2010-11-14
Oracle
Python記憶體管理：基本概念與技巧
2023-12-14
Python記憶體
你是視覺動物 or 嗅覺動物？——資訊圖
2014-08-28
視覺
《動物遊戲》一場真正的資本主義遊戲
2020-10-15
遊戲
Python中裝飾器的基本概念和用法
2019-06-11
Python
Python爬蟲（1.爬蟲的基本概念）
2018-04-20
Python爬蟲
【cbo計算公式】CBO基本概念(一)
2018-08-19
公式
Windows驅動開發入門 -- 理清基本概念
2019-01-15
Windows
Zookeeper入門：基本概念、5項配置、啟動
2015-12-01
Python基礎教程08 - 物件導向的基本概念
2014-05-12
Python物件
一眼看穿?JS基本概念
2019-02-16
JS
轉儲存的一些基本概念
2015-01-30
AIX儲存管理基本概念和操作（一)
2015-08-22
AI
WebLogic中的一些基本概念
2015-11-11
Web
python之購物車程式
2021-09-09
Python
Spring啟動過程原始碼分析基本概念
2021-10-20
Spring原始碼
javascript 多物體運動
2018-08-30
JavaScript
JS實現動物相簿
2020-12-08
JS
python 學習筆記第四章：基本概念
2021-09-09
Python筆記
Python語言常用的49個基本概念及含義
2020-11-09
Python
Java 多執行緒基礎（一）基本概念
2020-06-05
Java執行緒
ES 入門（一）：安裝部署與基本概念
2019-02-14
一文掌握GitHub Actions基本概念與配置
2022-06-25
Github
資料結構的一些基本概念
2021-01-22
資料結構

Python爬行動物（一）：基本概念

定義網路爬蟲

URL概念

相關文章