Linux企業級專案實踐之網路爬蟲（13）——處理user-agent

尹成發表於2014-08-31

原文網址 : https://blog.csdn.net/itcastcpp/article/details/38965109

User Agent即使用者代理，是Http協議中的一部分，屬於頭域的組成部分，User Agent也簡稱UA。它是一個特殊字串頭，是一種向訪問網站提供你所使用的瀏覽器型別及版本、作業系統及版本、瀏覽器核心、等資訊的標識。通過這個標識，使用者所訪問的網站可以顯示不同的排版從而為使用者提供更好的體驗或者進行資訊統計。

瀏覽器的UA字串的標準格式：瀏覽器標識 (作業系統標識; 加密等級標識; 瀏覽器語言) 渲染引擎標識版本資訊。但各個瀏覽器有所不同。

字串說明：
1、瀏覽器標識
出於相容及推廣等目的，很多瀏覽器的標識相同，因此瀏覽器標識並不能說明瀏覽器的真實版本，真實版本資訊在 UA 字串尾部可以找到。

2、作業系統標識

3、加密等級標識
N: 表示無安全加密
I: 表示弱安全加密
U: 表示強安全加密

4、瀏覽器語言
在首選項 > 常規 > 語言中指定的語言

5、渲染引擎
顯示瀏覽器使用的主流渲染引擎有：Gecko、WebKit、KHTML、Presto、Trident、Tasman等，格式為：渲染引擎/版本資訊

6、版本資訊

顯示瀏覽器的真實版本資訊，格式為：瀏覽器/版本資訊

int send_request(int fd, void *arg)
{
    int need, begin, n;
    char request[1024] = {0};
    Url *url = (Url *)arg;

    sprintf(request, "GET /%s HTTP/1.0\r\n"
            "Host: %s\r\n"
            "Accept: */*\r\n"
            "Connection: Keep-Alive\r\n"
            "User-Agent: Mozilla/5.0 (compatible; Qteqpidspider/1.0;)\r\n"
            "Referer: %s\r\n\r\n", url->path, url->domain, url->domain);

    need = strlen(request);
    begin = 0;
    while(need) {
        n = write(fd, request+begin, need);
        if (n <= 0) {
            if (errno == EAGAIN) { //write buffer full, delay retry
                usleep(1000);
                continue;
            }
            SPIDER_LOG(SPIDER_LEVEL_WARN, "Thread %lu send ERROR: %d", pthread_self(), n);
            free_url(url);
            close(fd);
            return -1;
        }
        begin += n;
        need -= n;
    }
    return 0;
}

網路爬蟲專案
2022-01-29
爬蟲
Python網路爬蟲實戰專案大全 32個Python爬蟲專案demo
2019-04-24
Python爬蟲
網路爬蟲（python專案）
2018-12-04
爬蟲Python
專案－－python網路爬蟲
2020-08-15
Python爬蟲
Python網路爬蟲實戰小專案
2021-04-12
Python爬蟲
Python網路爬蟲實戰專案大全！
2020-12-19
Python爬蟲
企業資料爬蟲專案
2018-10-05
爬蟲
2019最新《網路爬蟲JAVA專案實戰》
2019-05-09
爬蟲Java
Java 爬蟲專案實戰之爬蟲簡介
2018-11-24
Java爬蟲
企業資料爬蟲專案（二）
2018-10-06
爬蟲
精通Scrapy網路爬蟲【一】第一個爬蟲專案
2021-06-19
爬蟲
如何處理識別出的網路爬蟲
2019-02-02
爬蟲
python網路爬蟲--專案實戰--scrapy嵌入selenium，晶片廠級聯評論爬取（6）
2020-10-23
Python爬蟲晶片
[網路爬蟲] 網路爬蟲實踐：大麥網演唱會預約搶票【待續】
2024-05-04
爬蟲
網路爬蟲——專案實戰（爬取糗事百科所有文章）
2020-02-07
爬蟲
網路爬蟲——爬蟲實戰（一）
2022-01-29
爬蟲
Python爬蟲開發與專案實踐（3）
2020-10-26
Python爬蟲
動態ip代理：反網路爬蟲之設定User-Agent的常規方法
2019-01-10
爬蟲
最新《30小時搞定Python網路爬蟲專案實戰》
2020-02-18
Python爬蟲
網路爬蟲專案開發日誌（三）：爬蟲上線準備
2022-02-02
爬蟲
python爬蟲之處理驗證碼
2019-03-01
Python爬蟲
精通 Python 網路爬蟲：核心技術、框架與專案實戰
2018-11-06
Python爬蟲框架
104個實用網路爬蟲專案資源整理（超全）
2019-04-16
爬蟲
課程設計：python_網路爬蟲專案
2021-03-09
Python爬蟲
爬蟲實戰專案集合
2019-02-28
爬蟲
爬蟲專案實戰（一）
2020-06-15
爬蟲
爬蟲實戰專案合集
2022-01-25
爬蟲
Python靜態網頁爬蟲專案實戰
2020-05-01
Python網頁爬蟲
[Python] 網路爬蟲與資訊提取（1）網路爬蟲之規則
2020-11-06
Python爬蟲
python網路爬蟲應用_python網路爬蟲應用實戰
2020-12-29
Python爬蟲
視訊教程-Python網路爬蟲開發與專案實戰-Python
2020-05-28
Python爬蟲
Python網路爬蟲實戰
2022-03-18
Python爬蟲
爬蟲專案:大麥網分析
2019-08-22
爬蟲
網路爬蟲之抓取郵箱
2018-06-18
爬蟲
爬蟲專案
2019-06-07
爬蟲
001.01 一般網頁爬蟲處理
2019-08-06
網頁爬蟲
Python爬蟲js處理
2020-03-31
Python爬蟲JS
python爬蟲實操專案_Python爬蟲開發與專案實戰 1.6 小結
2021-02-04
Python爬蟲
推薦13個.Net開源的網路爬蟲
2018-05-06
爬蟲

Linux企業級專案實踐之網路爬蟲（13）——處理user-agent

相關文章