使用 request 和 cheerio 庫來傳送 HTTP 請求

金木大大大發表於2023-11-14

首先,我們需要匯入所需的庫。在這個例子中,我們將使用 request 和 cheerio 庫來傳送 HTTP 請求和解析 HTML。


```typescript

import request from 'request';

import cheerio from 'cheerio';

```


然後,我們需要定義一個函式來傳送請求並解析響應。


```typescript

function getHtml(url: string, proxyHost: string, proxyPort: number)

      {

    request({url: url, proxy: {host: proxyHost, port: proxyPort}}, (error, response, body) => {

        if (error) {

            console.error('Error:', error);

            return;

        }

        const $ = cheerio.load(body);

        // 這裡將解析後的 HTML 儲存在變數中,我們可以在下面的程式碼中使用它

    });

}

```


在這個函式中,我們使用 request 庫傳送一個 HTTP GET 請求到指定的 URL,並使用指定的代理資訊。如果請求成功,我們使用 cheerio 庫解析響應的 HTML。如果請求失敗或解析失敗,我們將列印錯誤資訊。


這就是使用 TypeScript 編寫一個爬蟲程式的基本步驟。請注意,這只是一個非常基礎的示例,實際的爬蟲程式可能需要處理更復雜的情況,如處理反爬蟲策略、處理 cookies 和 session、儲存和處理資料等。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70032566/viewspace-2995159/,如需轉載,請註明出處,否則將追究法律責任。

相關文章