使用Python和requests庫的簡單爬蟲程式

金木大大大發表於2023-11-13

這是一個使用Python和requests庫的簡單爬蟲程式。我們將使用代理來爬取網頁內容。以下是程式碼和解釋:


```python

import requests

from fake_useragent import UserAgent

# 每行代理資訊

proxy_host = "jshk.com.cn"

# 建立一個代理器

proxy = {'http': ' + proxy_host + ':' + proxy_port}


# 建立一個使用者代理

ua = UserAgent()

headers = {

    'User-Agent': ua.random

}

# 傳送請求

response = requests.get(' headers=headers, proxies=proxy)

# 列印響應

print(response.text)

```


步驟解釋:


1. 引入所需的庫requests和fake_useragent。

2. 定義代理資訊,包括主機名和埠號。

3. 建立一個代理器字典,其中http為代理伺服器的url。

4. 建立一個使用者代理,用於模擬瀏覽器。

5. 建立一個headers字典,其中User-Agent為隨機生成的使用者代理。

6. 傳送GET請求到指定URL,使用headers和proxy引數。

7. 列印響應的內容。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70032566/viewspace-2994960/,如需轉載,請註明出處,否則將追究法律責任。

相關文章