使用curl抓取網頁遇到HTTP跳轉時得到多個HTTP頭部的問題

weixin_33894992發表於2012-04-08

Woody的技術Blog » 使用curl抓取網頁遇到HTTP跳轉時得到多個HTTP頭部的問題

使用curl抓取網頁遇到HTTP跳轉時得到多個HTTP頭部的問題
June 21st, 2011
Woody Leave a comment
Go to comments
在PHP的CURL擴充套件中，是可以通過CURL自身的設計自動處理HTTP 30X的跳轉的。這個特性在使用起來很簡單：
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, 'http://www.example.com');
curl_setopt($ch, CURLOPT_HEADER, true);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
 
$content = curl_exec($ch);
正常情況下，$content 中的結果包括了 HTTP 頭和 body 的資訊，且以 "\r\n\r\n" 分隔。因此可以用
list($header, $body) = explode("\r\n\r\n", $content, 2);
來分別取得這兩部分。不過如果在要訪問的地址上發生了 HTTP 跳轉，這時 curl_exec 執行得到的結果中就包含了兩次訪問的頭部。例如把上面的程式碼的 URL 部分換成我這裡的：
curl_setopt($ch, CURLOPT_URL, 'http://cn.programmingnote.com');
當訪問 cn.programmingnote.com 時，會觸發一個 302 跳轉。此時 curl_exec 返回內容的開頭是：
HTTP/1.1 302 Found

Date: Tue, 21 Jun 2011 08:15:58 GMT

Server: Apache/2.2.16 (Ubuntu)

X-Powered-By: PHP/5.3.3-1ubuntu9.5

Location: blog/

Vary: Accept-Encoding

Content-Length: 0

Content-Type: text/html
HTTP/1.1 200 OK

Date: Tue, 21 Jun 2011 08:15:58 GMT

Server: Apache/2.2.16 (Ubuntu)

X-Powered-By: PHP/5.3.3-1ubuntu9.5

X-Pingback: http://cn.programmingnote.com/blog/xmlrpc.php

Vary: Accept-Encoding

Transfer-Encoding: chunked

Content-Type: text/html; charset=UTF-8
很明顯包含了兩次的 HTTP 頭部資訊。此時再用 explode("\r\n\r\n", $content, 2) 的方法會把下面的頭部資訊歸到 HTTP Body 部分裡去。
而我在命令列下直接使用 curl 來訪問包含跳轉的地址時，卻發現可以正確地把頭部和 body 部分割槽別開。因此我想到可能是 PHP 的 curl 擴充套件在實現方面有些問題。於是我在 curl 擴充套件的程式碼中找到了 curl_exec 的實現：
/* {{{ proto bool curl_exec(resource ch)
   Perform a cURL session */
PHP_FUNCTION(curl_exec)
{
	CURLcode	error;
	zval		*zid;
	php_curl	*ch;
 
	if (zend_parse_parameters(ZEND_NUM_ARGS() TSRMLS_CC, "r", &zid) == FAILURE) {
		return;
	}
 
	ZEND_FETCH_RESOURCE(ch, php_curl *, &zid, -1, le_curl_name, le_curl);
 
	_php_curl_cleanup_handle(ch);
 
	error = curl_easy_perform(ch->cp);
	SAVE_CURL_ERROR(ch, error);
	/* CURLE_PARTIAL_FILE is returned by HEAD requests */
	if (error != CURLE_OK && error != CURLE_PARTIAL_FILE) {
		if (ch->handlers->write->buf.len > 0) {
			smart_str_free(&ch->handlers->write->buf);
		}
		RETURN_FALSE;
	}
	// more code ...
}
從名字上可以看出，真正處理 HTTP 訪問的程式碼應該是在 curl_easy_perform 做的。經查證，這個函式是屬於 libcurl 這個庫的，和 PHP 擴充套件已經沒有關係了。並且，我寫了一段直接使用 libcurl 庫的程式碼，和 PHP 中的用法並沒有太大的區別，也沒有特殊的引數用來設計是保留多次的 HTTP Header 還是隻保留最後的一次 Header。
#include <curl/curl.h>
#include <stdio.h>
int main()
{
	CURL *handler = curl_easy_init();
	curl_easy_setopt(handler, CURLOPT_HEADER, 1);
	curl_easy_setopt(handler, CURLOPT_FOLLOWLOCATION, 1);
	curl_easy_setopt(handler, CURLOPT_URL, "http://cn.programmingnote.com");
	int res = curl_easy_perform(handler);
	printf("%d\n", res);
	return 0;
}
和在 PHP 中測試的結果一樣，依然是記錄了兩個 Header。
既然如此，想要把最後跳轉到的地址的 Header 和 Body 區別出來，如果能知道跳轉的次數就好了。畢竟每多跳一次，就多了一個 Header 部分，而且多個 Header 之間仍然是以 "\r\n\r\n" 分隔的。於是看 PHP curl 的 curl_getinfo，在 Return Values 中看到了 "redirect_count" 一項，正是要找的。

網頁抓取五種常用的HTTP標頭
2022-06-28
網頁HTTP
4個常用的HTTP安全頭部
2014-02-26
HTTP
網頁快取相關的HTTP頭部資訊詳解
2019-07-21
網頁快取HTTP
HTTP與快取相關的頭部
2019-04-16
HTTP快取
http頭部如何對快取的控制
2015-09-29
HTTP快取
使用HTTP響應頭X-Frame-Options防止網頁被Frame
2018-07-03
HTTP網頁
NGINX使用rewrite實現http 跳轉 https
2020-11-22
NginxHTTP
[譯] HTTP 快取頭部 - 完全指南
2018-02-11
HTTP快取
爬蟲抓取網路資料時經常遇到的六種問題
2022-06-11
爬蟲
使用utl_http獲取某個http頁面內容
2010-01-05
HTTP
Android使用WebView嵌入網頁，網頁內點選跳轉到另一個網頁後，返回問題解決
2014-10-09
AndroidWebView網頁
訪問 SAP 電商雲 Storefront 時遇到的 HTTP 403 錯誤
2022-11-06
HTTP
網頁抓取常見的問題有哪些？
2023-01-11
網頁
java抓取網頁的亂碼問題(通用)
2011-03-17
Java網頁
使用 http-proxy 代理 HTTP 請求時遇到的 the requested url is invalid 錯誤訊息
2022-09-01
HTTP
使用 redisson 時遇到的問題
2017-07-27
Redis
轉 http協議中有關http頭的技術資料-
2007-06-12
HTTP協議
Compose NavHost跳轉頁面時多次重組的問題
2024-06-25
更新larabbs到7.x 遇到HTTP Error 500 的問題
2020-08-22
HTTPError
CURL抓取網頁內容並用正則提取。
2017-06-05
網頁
toapi：抓取任意網頁內容並提供 HTTP API獲取資料
2024-05-07
API網頁HTTP
curl -fs http://localhost:8000/
2024-10-15
HTTPlocalhost
curl的HTTP引數速查表
2022-03-01
HTTP
js頁面跳轉的問題(跳轉到父頁面、最外層頁面、本頁面)
2020-12-01
JS
HTTP/2 頭部壓縮技術介紹
2016-04-13
HTTP
從頭寫個http client（java）
2016-05-31
HTTPclientJava
http的302 redirect的一個問題
2015-11-04
HTTP
日常問題頁面跳轉 $_SESSION 失效
2020-10-17
Session
遇到了http 400
2017-12-12
HTTP
HTTP訊息中header頭部資訊的講解
2017-08-31
HTTPHeader
Using cURL to automate HTTP jobs
2016-05-20
HTTP
請教structs中頁面跳轉的問題
2006-11-09
Struct
使用代理抓取網頁的原因
2021-09-11
網頁
tomcat設定http自動跳轉為https訪問
2016-05-23
TomcatHTTP
springmvc頁面跳轉時的路徑問題需要使用/專案名/。。。。。。必須的
2014-05-28
SpringMVC
如何使用海外HTTP代理訪問外網？如何設定海外HTTP代理？
2022-09-14
HTTP
同一欄位多個查詢條件時遇到的一個問題
2019-11-29
python3抓取網頁解碼問題！
2017-06-12
Python網頁

使用curl抓取網頁遇到HTTP跳轉時得到多個HTTP頭部的問題

使用curl抓取網頁遇到HTTP跳轉時得到多個HTTP頭部的問題

相關文章