爬蟲入門(HTTP和HTTPS)

賈富程發表於2018-12-09

原文網址 : https://juejin.im/post/5c0cc549f265da612c5db5fe

爬蟲HTTP

爬蟲的很關鍵的步驟就是傳送請求獲取響應，而在傳送請求獲取引數的過程中就是傳送http或https的請求，獲取http或https的響應，下面圖片簡單的流程：

爬蟲入門(HTTP和HTTPS)

概念的比較：

HTTP
- 超文字傳輸協議
- 預設埠號:80
HTTPS
- HTTP + SSL(安全套接字層)，即帶有安全套接字層的超本文傳輸協議
- 預設埠號：443

HTTPS比HTTP更安全，但是效能更低

http請求的過程

瀏覽器先向位址列中的url發起請求，並獲取相應
在返回的響應內容（html）中，會帶有css、js、圖片等url地址，以及ajax程式碼，瀏覽器按照響應內容中的順序依次傳送其他的請求，並獲取相應的響應
瀏覽器每獲取一個響應就對展示出的結果進行新增（載入），js，css等內容會修改頁面的內容，js也可以重新傳送請求，獲取響應
從獲取第一個響應並在瀏覽器中展示，直到最終獲取全部響應，並在展示的結果中新增內容或修改————這個過程叫做瀏覽器的渲染

注意:
但是在爬蟲中，爬蟲只會請求url地址，對應的拿到url地址對應的響應（該響應的內容可以是html，css，js，圖片等）
瀏覽器渲染出來的頁面和爬蟲請求的頁面很多時候並不一樣
所以在爬蟲中，需要以url地址對應的響應為準來進行資料的提取

HTTP請求的形式

HTTP常見請求頭

Host (主機和埠號)
Connection (連結型別)
Upgrade-Insecure-Requests (升級為HTTPS請求)
User-Agent (瀏覽器名稱)
Accept (傳輸檔案型別)
Referer (頁面跳轉處)
Accept-Encoding（檔案編解碼格式）
Cookie （Cookie）
x-requested-with :XMLHttpRequest (表示該請求是Ajax非同步請求)

HTTP重要的響應頭

Set-Cookie （對方伺服器設定cookie到使用者瀏覽器的快取）

響應狀態碼(status code)

常見的狀態碼：

200：成功
302：臨時轉移至新的url
307：臨時轉移至新的url
404：找不到該頁面
500：伺服器內部錯誤
503：服務不可用，一般是被反爬

爬蟲入門
2024-04-13
爬蟲
Python爬蟲入門
2020-11-30
Python爬蟲
【爬蟲】python爬蟲從入門到放棄
2018-12-20
爬蟲Python
python-爬蟲入門
2024-09-22
Python爬蟲
爬蟲（1） - 爬蟲基礎入門理論篇
2022-06-30
爬蟲
爬蟲入門(字串相關)
2018-12-10
爬蟲字串
爬蟲入門基礎-Python
2020-05-09
爬蟲Python
python3 爬蟲入門
2021-09-09
Python爬蟲
Python爬蟲入門，8個常用爬蟲技巧盤點
2018-12-12
Python爬蟲
什麼是Python爬蟲？python爬蟲入門難嗎？
2021-12-27
Python爬蟲
python爬蟲之 BeautifulSoup庫入門
2019-12-09
Python爬蟲
三分鐘爬蟲入門
2020-05-18
爬蟲
Python3爬蟲入門(一)
2020-12-05
Python爬蟲
Python爬蟲入門【5】：27270圖片爬取
2019-07-30
Python爬蟲
HTTP 和 HTTPS
2020-11-10
HTTP
HTTP和HTTPS
2024-06-11
HTTP
HTTPS和HTTP
2018-03-30
HTTP
為什麼學習python及爬蟲，Python爬蟲[入門篇]？
2018-11-21
Python爬蟲
帶你入門Python爬蟲，8個常用爬蟲技巧盤點
2018-08-06
Python爬蟲
Python爬蟲入門【9】：圖蟲網多執行緒爬取
2019-07-31
Python爬蟲執行緒
Python爬蟲入門教程導航帖
2019-01-08
Python爬蟲
5 行程式碼就能入門爬蟲？
2019-01-11
行程爬蟲
Python3 爬蟲快速入門攻略
2018-12-07
Python爬蟲
scrapy入門教程()部署爬蟲專案
2018-09-27
爬蟲
Python網路爬蟲4 - scrapy入門
2018-05-29
Python爬蟲
爬蟲工程師的入門簡介
2018-05-22
爬蟲工程師
爬蟲工程師的unidbg入門教程
2019-12-27
爬蟲工程師
爬蟲入門第一章
2020-10-18
爬蟲
Scrapy使用入門及爬蟲代理配置
2020-11-11
爬蟲
python入門之爬蟲工具有哪些？
2021-09-11
Python爬蟲
爬蟲程式十分鐘入門
2021-09-09
爬蟲
爬蟲入門學習筆記3
2021-01-05
爬蟲筆記
04selenium爬蟲輕鬆入門
2024-12-08
爬蟲
[雪峰磁針石部落格]python爬蟲cookbook1爬蟲入門
2018-09-10
Python爬蟲
Python爬蟲入門教程 50-100 Python3爬蟲爬取VIP視訊-Python爬蟲6操作
2019-02-14
Python爬蟲
不踩坑的Python爬蟲：Python爬蟲開發與專案實戰，從爬蟲入門 Python
2021-12-17
Python爬蟲
Python爬蟲入門【11】：半次元COS圖爬取
2019-07-31
Python爬蟲
Python爬蟲入門【3】：美空網資料爬取
2019-07-30
Python爬蟲

爬蟲入門(HTTP和HTTPS)

http請求的過程

注意:

HTTP請求的形式

HTTP常見請求頭

HTTP重要的響應頭

響應狀態碼(status code)

相關文章