Python爬行動物(一):基本概念

weixin_34067049發表於2015-06-16

定義網路爬蟲

         網路爬蟲(Web Spider,也被稱為網路蜘蛛,網路機器人,也被稱為網頁追逐者)。按照一定的規則,維網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻,自己主動索引,模擬程式或者蠕蟲。

假設把網際網路比喻成一個蜘蛛網。那麼Spider就是在網上爬來爬去的蜘蛛。

        網路蜘蛛是通過網頁的連結地址來尋找網頁的。從站點某一個頁面(一般是首頁)開始,讀取網頁的內容。找到在網頁中的其他連結地址,然後通過這些連結地址尋找下一個網頁,這樣一直迴圈下去,直到把這個站點全部的網頁都抓取完為止。假設把整個網際網路當成一個站點,那麼網路蜘蛛就能夠用這個原理把網際網路上全部的網頁都抓取下來。這樣看來,網路爬蟲就是一個爬行程式,一個抓取網頁的程式。
        簡單地說,網路爬蟲的基本任務就是抓取網頁內容

URL概念

        抓取網頁的過程事實上和讀者平時使用IE瀏覽器瀏覽網頁的道理是一樣的。

比方說你在瀏覽器的位址列中輸入    www.baidu.com    這個地址。開啟網頁的過程事實上就是瀏覽器作為一個瀏覽的“client”,向server端傳送了 一次請求。把server端的檔案“抓”到本地。再進行解釋、展現。

HTML是一種標記語言,用標籤標記內容並加以解析和區分。

瀏覽器的功能是將獲取到的HTML程式碼進行解析。然後將原始的程式碼轉變成我們直接看到的站點頁面。


        在理解URL之前,首先要理解URI的概念
Web上每種可用的資源。如 HTML文件、影象、視訊片段、程式等都由一個通用資源標誌符(Universal Resource Identifier。 URI)進行定位。 URI通常由三部分組成:
         ①訪問資源的命名機制;
         ②存放資源的主機名。
         ③資源自身 的名稱,由路徑表示。
如URI:http://www.baidu.com.cn/myhtml/html1223/。我們能夠這樣解釋它:
        ①這是一個能夠通過HTTP協議訪問的資源,
        ②位於主機www.baidu.com.cn上,
        ③通過路徑“/html/html40”訪問。

 


URL的概念
         URL是URI的一個子集。它是Uniform Resource Locator的縮寫,譯為“統一資源定位 符”。通俗地說,URL是Internet上描寫敘述資訊資源的字串。主要用在各種WWW客戶程式和server程式上。採用URL能夠用一種統一的格式來描寫敘述各種資訊資源,包含檔案、server的地址和資料夾等。

URL演示樣例

1.HTTP協議的URL演示樣例:
使用超級文字傳輸協議HTTP。提供超級文字資訊服務的資源。

 例:http://www.peopledaily.com.cn/channel/welcome.htm 
其計算機域名為www.peopledaily.com.cn。
超級文字檔案(檔案型別為.html)是在資料夾 /channel下的welcome.htm。
這是中國人民日報的一臺計算機。 


例:http://www.rol.cn.net/talk/talk1.htm 
其計算機域名為www.rol.cn.net。
超級文字檔案(檔案型別為.html)是在資料夾/talk下的talk1.htm。
這是瑞得聊天室的地址,可由此進入瑞得聊天室的第1室。


2.檔案的URL
用URL表示檔案時,server方式用file表示。後面要有主機IP地址、檔案的存取路 徑(即資料夾)和檔名稱等資訊。
有時能夠省略資料夾和檔名稱,但“/”符號不能省略。

 
例:file://ftp.yoyodyne.com/pub/files/foobar.txt 
上面這個URL代表存放在主機ftp.yoyodyne.com上的pub/files/資料夾下的一個檔案。檔名稱是foobar.txt。


例:file://ftp.yoyodyne.com/pub 
代表主機ftp.yoyodyne.com上的資料夾/pub。 


案件:file://ftp.yoyodyne.com/ 
代主機ftp.yoyodyne.com根目錄資料夾。 

相關文章