讀書筆記:《Python3網路爬蟲開發實戰》——第2章:爬蟲基礎

有趣的靈魂又雙叒叕來了~發表於2019-04-09

第2章 爬蟲基礎

2.1 HTTP基本原理

2.1.1 URI和URL

URI: Uniform Resource Identifier 統一資源識別符號
URL:Universal Resource Locator 統一資源定位符

2.1.2 超文字

hypertext

2.1.3 http和https

https:Hyper Text Transfer Protocol over Secure Socket Layer
https是以安全為目標的HTTP通道,簡單地講師HTTP的安全版,即HTTP下加入SSL層,簡稱為HTTPS

2.1.4 HTTP請求過程
2.1.5 請求
  1. 請求方法:get和post
  • get請求中的引數包含在URL中,資料可以在URL中看到;而post請求的URL不會包含這些資料,資料通過表單形式傳輸的,會包含在請求體中
  • get請求提交的資料最多隻有1024位元組,post無限制
  1. 請求的網址
    即URL
  2. 請求頭
  3. 請求體
2.1.6 響應
  1. 相應狀態碼
  2. 響應頭
  3. 響應體

2.2 網頁基礎


2.3 爬蟲的基本原理

2.3.1 爬蟲概述

獲取網頁 —> 提取資訊 —> 儲存資料 —> 自動化程式


2.4 會話和cookies

後面有cookies池搭建,此處不贅述


2.5 代理的基本原理

同上

相關文章