出行平臺採集機票價格資訊

金木大大大發表於2023-11-14

在上述Python程式碼中,首先引入了所需的模組,然後設定了代理資訊和模擬瀏覽器訪問的網頁請求頭。隨後,使用requests庫傳送代理請求,並將返回的網頁內容解析為HTML。接著,從HTML中提取所需的資訊,比如機票價格,並將提取的資訊儲存到DataFrame中。最後,列印出提取的資訊。


這段程式碼展示瞭如何使用代理傳送網路請求,並從返回的HTML中提取所需的資料。這對於需要爬取網頁資料的情況非常有用。


# 匯入需要的模組

import requests

import pandas as pd



# 設定網頁請求頭,模擬瀏覽器訪問

headers = {

    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}


# 使用requests庫傳送代理請求

response = requests.get(" headers=headers, proxies={'http': f'http://{proxy_host}:{proxy_port}'})


# 將返回的網頁內容解析為HTML

soup = BeautifulSoup(response.text, 'html.parser')


# 提取需要的資訊,例如機票價格

price = soup.find('span', class_='price')


# 將提取的資訊儲存到DataFrame中

df = pd.DataFrame({'Price': [price.text]})


# 列印提取的資訊

print(df)

以上程式碼中,首先匯入了需要的模組。然後設定代理資訊。接著設定網頁請求頭,模擬瀏覽器訪問。使用requests庫傳送代理請求,並將返回的網頁內容解析為HTML。提取需要的資訊,例如機票價格,將提取的資訊儲存到DataFrame中,並列印提取的資訊。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70032566/viewspace-2995140/,如需轉載,請註明出處,否則將追究法律責任。

相關文章