Python 爬取網頁資料的兩種方法

chatGPT發表於2023-02-15

Python 爬取網頁資料的兩種方法

網路抓取是從任何網站或任何其他資訊源中提取資料的過程,以你想要檢視的格式儲存在你的系統中;
包含格式很多,例如CSV、Excel等;檔案、XML、JSON等等。Python是最常見的網頁抓取語言之一;對於任何網路抓取活動,Python被認為是確保此過程無任何錯誤進行的最佳方法;

2. 使用pandas 爬取網頁資料

2.1 開啟網頁

開啟一個網頁,將網址複製下來;

Python 爬取網頁資料的兩種方法

2.2 開啟 PyCharm 編譯器

    先下載pandas庫,【檔案】=>【設定】=>【專案:xxx】=>【專案直譯器】(【File】=>【Settings…】=>【project:xxx】=>【Python Interpreter】),點選+號,在搜尋框中輸入“pandas”,在下方列表中選中“pandas”,點選安裝,等待提示安裝完成即可;

Python 爬取網頁資料的兩種方法


Python 爬取網頁資料的兩種方法


2.回到Pycharm輸入以下程式碼

import pandas as pd     #匯入pandas庫
html = "將要爬取資料的網站網址複製到此
date = pd.read_html(html)       #運用pd.read_html讀取網站資料
print(date)     #輸出爬取到的資料


3.執行結果如下所示:

Python 爬取網頁資料的兩種方法


3.使用urllib爬取網頁資料並寫入Excel表
3.1 下載 urllib 庫

與上述方法一致,這裡就不贅述了
3.2 程式碼如下

import urllib.request       #匯入urllib庫
url = urllib.request.urlopen(")        #需要抓取資料的網站
data = url.read()
dt1 = open("D:/Code/data/2.xls","wb")       #xls表的位置,會自動生成xls表
dt1.write(data)   #將資料寫入D:/Code/data/2.xls表中
dt1.close()
print(data)


3.3 執行結果如下

Python 爬取網頁資料的兩種方法


開啟目錄下的2.xls表,即可看到爬取的資料;

Python 爬取網頁資料的兩種方法




API測試















來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70026630/viewspace-2935378/,如需轉載,請註明出處,否則將追究法律責任。

相關文章