定義網路爬蟲
假設把網際網路比喻成一個蜘蛛網。那麼Spider就是在網上爬來爬去的蜘蛛。
URL概念
比方說你在瀏覽器的位址列中輸入 www.baidu.com 這個地址。開啟網頁的過程事實上就是瀏覽器作為一個瀏覽的“client”,向server端傳送了 一次請求。把server端的檔案“抓”到本地。再進行解釋、展現。
HTML是一種標記語言,用標籤標記內容並加以解析和區分。
瀏覽器的功能是將獲取到的HTML程式碼進行解析。然後將原始的程式碼轉變成我們直接看到的站點頁面。
Web上每種可用的資源。如 HTML文件、影象、視訊片段、程式等都由一個通用資源標誌符(Universal Resource Identifier。 URI)進行定位。 URI通常由三部分組成:
①訪問資源的命名機制;
②存放資源的主機名。
③資源自身 的名稱,由路徑表示。
如URI:http://www.baidu.com.cn/myhtml/html1223/。我們能夠這樣解釋它:
①這是一個能夠通過HTTP協議訪問的資源,
②位於主機www.baidu.com.cn上,
③通過路徑“/html/html40”訪問。
1.HTTP協議的URL演示樣例:
使用超級文字傳輸協議HTTP。提供超級文字資訊服務的資源。
例:http://www.peopledaily.com.cn/channel/welcome.htm
其計算機域名為www.peopledaily.com.cn。
超級文字檔案(檔案型別為.html)是在資料夾 /channel下的welcome.htm。
這是中國人民日報的一臺計算機。
例:http://www.rol.cn.net/talk/talk1.htm
其計算機域名為www.rol.cn.net。
超級文字檔案(檔案型別為.html)是在資料夾/talk下的talk1.htm。
這是瑞得聊天室的地址,可由此進入瑞得聊天室的第1室。
2.檔案的URL
用URL表示檔案時,server方式用file表示。後面要有主機IP地址、檔案的存取路 徑(即資料夾)和檔名稱等資訊。
有時能夠省略資料夾和檔名稱,但“/”符號不能省略。
例:file://ftp.yoyodyne.com/pub/files/foobar.txt
上面這個URL代表存放在主機ftp.yoyodyne.com上的pub/files/資料夾下的一個檔案。檔名稱是foobar.txt。
例:file://ftp.yoyodyne.com/pub
代表主機ftp.yoyodyne.com上的資料夾/pub。
案件:file://ftp.yoyodyne.com/
代主機ftp.yoyodyne.com根目錄資料夾。