Linux企業級專案實踐之網路爬蟲（11）——處理http請求頭

尹成發表於2014-08-31

原文網址 : https://blog.csdn.net/itcastcpp/article/details/38964959

http請求頭，HTTP客戶程式（例如瀏覽器），向伺服器傳送請求的時候必須指明請求型別（一般是GET或者POST）。如有必要，客戶程式還可以選擇傳送其他的請求頭。
HTTP客戶程式（例如瀏覽器），向伺服器傳送請求的時候必須指明請求型別（一般是GET或者POST）。如有必要，客戶程式還可以選擇傳送其他的請求頭。大多數請求頭並不是必需的，但Content-Length除外。對於POST請求來說Content-Length必須出現。下面是一些最常見的請HTTP請求頭概述

Accept：瀏覽器可接受的MIME型別。
Accept-Charset：瀏覽器可接受的字符集。
Accept-Encoding：瀏覽器能夠進行解碼的資料編碼方式，比如gzip。Servlet能夠向支援gzip的瀏覽器返回經gzip編碼的HTML頁面。許多情形下這可以減少5到10倍的下載時間。
Accept-Language：瀏覽器所希望的語言種類，當伺服器能夠提供一種以上的語言版本時要用到。
Authorization：授權資訊，通常出現在對伺服器傳送的WWW-Authenticate頭的應答中。
Connection：表示是否需要持久連線。如果Servlet看到這裡的值為“Keep-Alive”，或者看到請求使用的是HTTP 1.1（HTTP 1.1預設進行持久連線），它就可以利用持久連線的優點，當頁面包含多個元素時（例如Applet，圖片），顯著地減少下載所需要的時間。要實現這一點，Servlet需要在應答中傳送一個Content-Length頭，最簡單的實現方法是：先把內容寫入ByteArrayOutputStream，然後在正式寫出內容之前計算它的大小。
Content-Length：表示請求訊息正文的長度。
Cookie：這是最重要的請求頭資訊之一
From：請求傳送者的email地址，由一些特殊的Web客戶程式使用，瀏覽器不會用到它。
Host：初始URL中的主機和埠。
If-Modified-Since：只有當所請求的內容在指定的日期之後又經過修改才返回它，否則返回304“Not Modified”應答。
Pragma：指定“no-cache”值表示伺服器必須返回一個重新整理後的文件，即使它是代理伺服器而且已經有了頁面的本地拷貝。
Referer：包含一個URL，使用者從該URL代表的頁面出發訪問當前請求的頁面。
User-Agent：瀏覽器型別，如果Servlet返回的內容與瀏覽器型別有關則該值非常有用。

UA-Pixels，UA-Color，UA-OS，UA-CPU：由某些版本的IE瀏覽器所傳送的非標準的請求頭，表示螢幕大小、顏色深度、作業系統和CPU型別。

int send_request(int fd, void *arg)
{
    int need, begin, n;
    char request[1024] = {0};
    Url *url = (Url *)arg;

    sprintf(request, "GET /%s HTTP/1.0\r\n"
            "Host: %s\r\n"
            "Accept: */*\r\n"
            "Connection: Keep-Alive\r\n"
            "User-Agent: Mozilla/5.0 (compatible; Qteqpidspider/1.0;)\r\n"
            "Referer: %s\r\n\r\n", url->path, url->domain, url->domain);

    need = strlen(request);
    begin = 0;
    while(need) {
        n = write(fd, request+begin, need);
        if (n <= 0) {
            if (errno == EAGAIN) { //write buffer full, delay retry
                usleep(1000);
                continue;
            }
            SPIDER_LOG(SPIDER_LEVEL_WARN, "Thread %lu send ERROR: %d", pthread_self(), n);
            free_url(url);
            close(fd);
            return -1;
        }
        begin += n;
        need -= n;
    }
    return 0;
}

python爬蟲請求頭
2020-10-06
Python爬蟲
SpringMVC——HTTP請求專案實踐整理總結
2020-12-06
SpringMVCHTTP
網路爬蟲專案
2022-01-29
爬蟲
爬蟲中網路請求的那些事之urllib庫
2022-03-19
爬蟲
【0基礎學爬蟲】爬蟲基礎之網路請求庫的使用
2023-03-26
爬蟲
爬蟲：HTTP請求與HTML解析（爬取某乎網站）
2021-05-19
爬蟲HTTPHTML網站
HTTP爬蟲被封如何處理？
2022-06-10
HTTP爬蟲
Python網路爬蟲實戰專案大全 32個Python爬蟲專案demo
2019-04-24
Python爬蟲
網路爬蟲（python專案）
2018-12-04
爬蟲Python
專案－－python網路爬蟲
2020-08-15
Python爬蟲
Python網路爬蟲實戰小專案
2021-04-12
Python爬蟲
Python網路爬蟲實戰專案大全！
2020-12-19
Python爬蟲
企業資料爬蟲專案
2018-10-05
爬蟲
2019最新《網路爬蟲JAVA專案實戰》
2019-05-09
爬蟲Java
處理 HTTP 請求的註解
2024-12-01
HTTP
Java 爬蟲專案實戰之爬蟲簡介
2018-11-24
Java爬蟲
HTTP網路請求原理
2023-11-28
HTTP
爬蟲實戰：從HTTP請求獲取資料解析社群
2024-03-20
爬蟲HTTP
企業資料爬蟲專案（二）
2018-10-06
爬蟲
網路爬蟲之關於爬蟲 http 代理的常見使用方式
2020-04-28
爬蟲HTTP
精通Scrapy網路爬蟲【一】第一個爬蟲專案
2021-06-19
爬蟲
如何處理識別出的網路爬蟲
2019-02-02
爬蟲
4、Ktor學習-處理HTTP請求;
2019-03-04
HTTP
python網路爬蟲--專案實戰--scrapy嵌入selenium，晶片廠級聯評論爬取（6）
2020-10-23
Python爬蟲晶片
java webservice 帶請求頭方式處理
2024-09-06
JavaWeb
iOS for 迴圈內網路請求的處理
2018-09-14
iOS內網
[網路爬蟲] 網路爬蟲實踐：大麥網演唱會預約搶票【待續】
2024-05-04
爬蟲
網路爬蟲——專案實戰（爬取糗事百科所有文章）
2020-02-07
爬蟲
網路爬蟲——爬蟲實戰（一）
2022-01-29
爬蟲
Selenium爬蟲實踐（踩坑記錄）之ajax請求抓包、瀏覽器退出
2021-02-03
爬蟲瀏覽器
Python爬蟲開發與專案實踐（3）
2020-10-26
Python爬蟲
Laravel 底層是如何處理HTTP請求
2021-02-04
LaravelHTTP
HTTP請求頭與響應頭
2018-05-27
HTTP
最新《30小時搞定Python網路爬蟲專案實戰》
2020-02-18
Python爬蟲
Python網路爬蟲第三彈《爬取get請求的頁面資料》
2018-09-14
Python爬蟲
網路請求優化之取消請求
2018-12-13
優化
網路爬蟲專案開發日誌（三）：爬蟲上線準備
2022-02-02
爬蟲
python爬蟲之處理驗證碼
2019-03-01
Python爬蟲
java 請求HTTP返回json集合,物件處理方式
2019-05-11
JavaHTTPJSON物件

Linux企業級專案實踐之網路爬蟲（11）——處理http請求頭

相關文章