Linux企業級專案實踐之網路爬蟲（17）——儲存頁面

尹成發表於2014-08-31

原文網址 : https://blog.csdn.net/itcastcpp/article/details/38965595

在爬蟲系統中資料的流量相當大，要處理的資料內容不僅包括爬蟲系統的各種資料結構空間，而且包括從外部節點中得到的各種資料，比如HTTP請求，HTML頁面，ROBOT.TXT等等。如果對這些內容處理不當，那麼不僅造成空間的冗餘浪費，使爬蟲程式效率降低，而且還可能會使系統崩潰。所以，要有合適的空間分配策略。
空間分配與管理方案。
在記憶體中使用緩衝空間，以快速的得到、儲存資料。
統一各種請求的結構，應該合理利用並在每次用完後進行回收。比如，ROBOT.TXT檔案，HTTP請求頭及相應的應答。這種方式，在站點數目數量相當龐大的情況下，非常有必要。

在頁面的抓取部分和儲存部分之間設定合適的介面，直接進行資料交換，從而使系統不必分配更多的空間來緩衝資料。資料緩衝功能由儲存部分內部實現。

static int handler(void * data) {
    Response *r = (Response *)data;
    
    if (strstr(r->header->content_type, "text/html") == NULL)
        return MODULE_ERR;

    char *fn = url2fn(r->url);
    int fd = -1;
    if ((fd = open(fn, O_WRONLY|O_CREAT|O_TRUNC, 0666)) < 0) {
        return MODULE_ERR;
    }

    int left = r->body_len;
    int n = -1;
    while (left) {
        if ((n = write(fd, r->body, left)) < 0) {
            // error
            close(fd);
            unlink(fn);
            free(fn);
            return MODULE_ERR;
        } else {
            left -= n;
        }
    }
    close(fd);
    free(fn);
    return MODULE_OK;
}

網路爬蟲專案
2022-01-29
爬蟲
Python網路爬蟲實戰專案大全 32個Python爬蟲專案demo
2019-04-24
Python爬蟲
Python靜態網頁爬蟲專案實戰
2020-05-01
Python網頁爬蟲
網路爬蟲（python專案）
2018-12-04
爬蟲Python
專案－－python網路爬蟲
2020-08-15
Python爬蟲
Python網路爬蟲實戰小專案
2021-04-12
Python爬蟲
Python網路爬蟲實戰專案大全！
2020-12-19
Python爬蟲
【0基礎學爬蟲】爬蟲基礎之檔案儲存
2023-04-07
爬蟲
企業資料爬蟲專案
2018-10-05
爬蟲
【Python3網路爬蟲開發實戰】5-資料儲存-1 檔案儲存-2 JSON檔案儲存
2018-03-21
Python爬蟲JSON
2019最新《網路爬蟲JAVA專案實戰》
2019-05-09
爬蟲Java
【Python3網路爬蟲開發實戰】5-資料儲存-1 檔案儲存-1 TXT文字儲存
2018-03-21
Python爬蟲
Java 爬蟲專案實戰之爬蟲簡介
2018-11-24
Java爬蟲
Python網路爬蟲之爬取淘寶網頁頁面 MOOC可以執行的程式碼
2018-11-24
Python爬蟲網頁
企業資料爬蟲專案（二）
2018-10-06
爬蟲
Python爬蟲教程-14-爬蟲使用filecookiejar儲存cookie檔案(人人網)
2018-09-06
Python爬蟲CookieJAR
精通Scrapy網路爬蟲【一】第一個爬蟲專案
2021-06-19
爬蟲
React17+React Hook+TS4 最佳實踐仿 Jira 企業級專案
2021-07-04
ReactHook
python網路爬蟲--專案實戰--scrapy嵌入selenium，晶片廠級聯評論爬取（6）
2020-10-23
Python爬蟲晶片
[網路爬蟲] 網路爬蟲實踐：大麥網演唱會預約搶票【待續】
2024-05-04
爬蟲
網路爬蟲——專案實戰（爬取糗事百科所有文章）
2020-02-07
爬蟲
網路爬蟲——爬蟲實戰（一）
2022-01-29
爬蟲
Python爬蟲開發與專案實踐（3）
2020-10-26
Python爬蟲
企業儲存分級
2020-03-30
【0基礎學爬蟲】爬蟲基礎之資料儲存
2023-04-14
爬蟲
最新《30小時搞定Python網路爬蟲專案實戰》
2020-02-18
Python爬蟲
Python爬蟲之使用MongoDB儲存資料
2019-02-16
Python爬蟲MongoDB
網路爬蟲專案開發日誌（三）：爬蟲上線準備
2022-02-02
爬蟲
精通 Python 網路爬蟲：核心技術、框架與專案實戰
2018-11-06
Python爬蟲框架
104個實用網路爬蟲專案資源整理（超全）
2019-04-16
爬蟲
《網頁爬蟲》
2018-11-26
網頁爬蟲
課程設計：python_網路爬蟲專案
2021-03-09
Python爬蟲
爬蟲實戰專案集合
2019-02-28
爬蟲
爬蟲專案實戰（一）
2020-06-15
爬蟲
爬蟲實戰專案合集
2022-01-25
爬蟲
[Python] 網路爬蟲與資訊提取（1）網路爬蟲之規則
2020-11-06
Python爬蟲
python網路爬蟲應用_python網路爬蟲應用實戰
2020-12-29
Python爬蟲
企業雲盤專業級分散式儲存伺服器
2021-01-08
分散式伺服器
視訊教程-Python網路爬蟲開發與專案實戰-Python
2020-05-28
Python爬蟲

Linux企業級專案實踐之網路爬蟲（17）——儲存頁面

相關文章