Python 爬取網頁資料的兩種方法

網路抓取是從任何網站或任何其他資訊源中提取資料的過程，以你想要檢視的格式儲存在你的系統中；
包含格式很多，例如CSV、Excel等；檔案、XML、JSON等等。Python是最常見的網頁抓取語言之一；對於任何網路抓取活動，Python被認為是確保此過程無任何錯誤進行的最佳方法；

2. 使用pandas 爬取網頁資料

2.1 開啟網頁

開啟一個網頁，將網址複製下來；

Python 爬取網頁資料的兩種方法

2.2 開啟 PyCharm 編譯器

先下載pandas庫，【檔案】=>【設定】=>【專案：xxx】=>【專案直譯器】（【File】=>【Settings…】=>【project：xxx】=>【Python Interpreter】），點選＋號，在搜尋框中輸入“pandas”，在下方列表中選中“pandas”，點選安裝，等待提示安裝完成即可；

Python 爬取網頁資料的兩種方法

2.回到Pycharm輸入以下程式碼

import pandas as pd     #匯入pandas庫
html = "將要爬取資料的網站網址複製到此
date = pd.read_html(html)       #運用pd.read_html讀取網站資料
print(date)     #輸出爬取到的資料

3.執行結果如下所示：

Python 爬取網頁資料的兩種方法

3.使用urllib爬取網頁資料並寫入Excel表
3.1 下載 urllib 庫

與上述方法一致，這裡就不贅述了
3.2 程式碼如下

import urllib.request       #匯入urllib庫
url = urllib.request.urlopen(")        #需要抓取資料的網站
data = url.read()
dt1 = open("D:/Code/data/2.xls","wb")       #xls表的位置，會自動生成xls表
dt1.write(data)   #將資料寫入D:/Code/data/2.xls表中
dt1.close()
print(data)

3.3 執行結果如下

Python 爬取網頁資料的兩種方法

開啟目錄下的2.xls表，即可看到爬取的資料；

Python 爬取網頁資料的兩種方法

API測試

Python 爬取網頁資料的兩種方法

Python 爬取網頁資料的兩種方法

2. 使用pandas 爬取網頁資料

2.1 開啟網頁

相關文章