基於SSL(TLS)的HTTPS網頁下載——如何編寫健壯的可靠的網頁下載

一隻會鏟史的貓發表於2021-06-09

原文網址 : https://www.cnblogs.com/softlee/p/14866278.html

原始碼下載地址
案例開發環境：VS2010
本案例未使用openssl庫，內部提供了sslite.dll庫進行TLS會話，該庫提供了ISSLSession介面用於建立SSL會話。

HTTP協議很簡單，寫個簡單的socket程式通過GET命令就能把網頁給down下來。但接收大的網路資源就複雜多了。何時解析、如何解析完整的HTTP響應頭，就是個頭疼問題。因為你不能指望一次recv就能接收完所有響應資料，也不能指望伺服器先傳送HTTP響應頭，然後再傳送響應資料。只有把HTTP響應頭徹底解析了，我們才能知道後續接收的Body資料有多大，何時才能接收完畢。

比如通過響應頭的"Content-Length"欄位，才能知道後續Body的大小。這個大小可能超過了你之前開闢的接收資料快取區大小。當然你可以在得知Body大小後，重新開闢一個與"Content-Length"一樣大小的快取區。但這樣做顯然是不明智的，比如你get的是一部4K高清藍光小電影，藍光電影不一定能get到，藍屏電腦倒有可能get到。。。。。。

遇到伺服器明確給出"Content-Length"欄位，是一件值得額手稱慶的大喜事，但不是每個IT民工都這麼幸運。如果遇到的是不靠譜的伺服器，傳送的是"Transfer-Encoding: chunked"，那你就必須鍛鍊自己真正的解析和組織能力了。這些分塊傳輸的資料，顯然不會以你接收的節奏到達你的緩衝區，比如先接收到一個block塊大小，然後是一個完整的塊資料，很有可能你會接收到多個塊或者不完整的塊，這就需要你站在巨集觀的角度把他們拼接起來。

如果你遇到的是甩的一米的伺服器，它不僅給你的是chunked，而且還增加了"Content-Encoding: gzip"，那麼你就需要拼接後進行解壓，當然你也可能遇到的是"deflate"壓縮。
附：我寫過web伺服器，所以也知道伺服器的心理。。。。。。
HttpServer：一款Windows平臺下基於IOCP模型的高併發輕量級web伺服器

題外話：我一直困惑的是HTTP協議為何不是對分塊資料單獨gzip壓縮然後傳輸，而只能是整體gzip壓縮後再分塊傳輸。這個對大資源傳輸很關鍵，比如上面的4K高清藍光小電影，顯然不能通過gzip+chunked方式傳輸，土豪伺服器例外。

當然你也可以用開源的llhttp來解析收到的http資料，從而避免上述可能會遇到的各種坑。最新版本的nodejs中就使用llhttp代替之前的的http-parser，據說解析效率有大幅提升。為此我下載了nodejs原始碼，並編譯了一把，這是一個快樂的過程，因為你可以看到v8引擎，openssl，zlib等各種開源庫。。。。，不過llhttp只負責解析，不負責快取，因此你還是需要在解析的過程中，進行資料快取。
關於V8引擎的使用參見文章
V8引擎靜態庫及其呼叫方法

以下是sslite庫提供的介面，SSLConnect是建立連線，SSLHandShake是SSL握手，握手成功後即可呼叫SSLSend和SSLRecv進行資料接收和傳送，非常簡單。如果接收資料很多，SSLRecv會通過回撥函式將資料拋給呼叫層。

以下是原始碼，註釋很多，就不一一解釋了。

一個下載網頁的程式
2020-04-07
網頁
網頁特效,網頁模板,pdf下載 - IT書包
2019-05-11
網頁特效
如何使用ScrapySharp下載網頁內容
2023-12-25
網頁
下載網頁音原始檔
2024-04-29
網頁
基於ThinkPHP的圖片下載網站
2019-05-11
PHP網站
library官網中文版，zlibrary網頁版如何下載書籍
2024-11-01
網頁
批次下載瀏覽器網頁中全部連結的方法
2023-03-06
瀏覽器網頁
問題解決：下載的網頁開啟後自動跳轉到首頁
2020-04-04
網頁
使用了`wreq`庫來下載網頁內容
2023-11-01
網頁
ssl證書下載與安裝 – 如何下載ssl證書
2020-04-01
Downie 4.7 中文破解版-mac網頁影片下載
2023-12-07
Mac網頁
分享一款全網頁視訊下載神器
2020-11-04
網頁
[HTTPS]SSL/TLS
2024-07-04
HTTPTLS
基於Vue的SPA如何優化頁面載入速度
2018-06-10
Vue優化
想獲取JS載入網頁的源網頁的原始碼，不想獲取JS載入後的資料
2024-04-10
JS網頁原始碼
iTubeGo for Mac(網頁影片下載工具) 7.1.0免啟用版
2023-11-12
GoMac網頁
新百勝娛樂app下載登入網頁13114166111
2020-08-20
APP網頁
網際網路的安全是如何保證的：TLS、SSL 和 CA
2019-12-21
TLS
如何下載Eclipse和編寫Hallow world
2024-09-02
Eclipse
使用Python實現網頁中圖片的批次下載和水印新增儲存
2023-10-12
Python網頁
下載的onethink ，手機還是顯示網頁吧，沒有自適應
2020-04-04
網頁
如何編寫一個使用Objective-C的下載器程式
2023-11-23
Object
《細說網頁製作》pdf電子書免費下載
2021-07-03
網頁
用HTML+CSS編寫一個計科院網站首頁的靜態網頁
2019-03-20
HTMLCSS網站網頁
網頁載入CAD圖紙的兩個方案
2021-05-18
網頁
開發人員如何從官網首頁進入下載JDK歷史版本
2019-02-22
JDK
網頁影片下載外掛FetchV，支援Chrome/Edge/FireFox瀏覽器
2024-05-25
網頁ChromeFirefox瀏覽器
https頁面載入http資源的解決方法
2024-11-20
HTTP
使用httpclient下載頁面、圖片
2020-02-27
HTTPclient
基於Chrome的Easy Scraper外掛抓取網頁
2024-04-06
Chrome網頁
CentOS 下 MySQL 5.6 基於 RPM 的下載、安裝、配置
2018-05-30
CentOSMySql
解決“阻塞效應”-解決指令碼檔案下載阻塞網頁渲染的問題
2019-08-05
指令碼網頁
聊聊 Python 的應用 - 健壯高效的網路爬蟲
2018-10-19
Python爬蟲
軟體下載網站有哪些？你需要知道的破解軟體下載網站
2020-07-03
網站
Hybrid 實戰：如何完整下載一個 wap 頁面
2018-09-23
如何保障物聯網平臺的安全性與健壯性
2022-09-13
https 下分頁生成的連結 http 解決方法
2019-11-25
HTTP
自學python網路爬蟲，從小白快速成長，分別實現靜態網頁爬取，下載meiztu中圖片；動態網頁爬取，下載burberry官網所有當季新品圖片。
2020-02-06
Python爬蟲網頁

基於SSL(TLS)的HTTPS網頁下載——如何編寫健壯的可靠的網頁下載

相關文章