第五週總結(2024.8.3)

记得关月亮發表於2024-09-02
本週學習python爬蟲所出現的問題:
1、設定請求頭 Headers 的問題

一般 headers 設定 user-Agent 即可,如果有的資料是登陸後才能看到的話,還需要新增 cookies 引數(先登陸賬號後,在瀏覽器的開發者工具中,複製 Cookies 即可)。這些引數都可以在瀏覽器的開發者工具中找到。

2、編碼問題

就是爬取過程中沒問題,但是用 excel 開啟儲存好的 csv 檔案時出現亂碼(用記事本開啟沒問題)。
這個其實就是檔案的編碼方式和 Excel 的解碼方式不一致導致的。在 dataframe.to_csv 這句,引數裡新增一個 encoding='utf_8_sig',指定檔案的編碼格式,應該就可以解決了

3、解析網頁時,我如何快速找到資料存放的位置,並提取其中的資料?

爬取之前需要定位到資料所在的標籤,這個使用 F12 開發者工具中的這個按鈕,點一下按鈕,然後點一下網頁,可以很快定位到頁面中的相應標籤

列表中的每一個 li 標籤中,都是一條資料,我們需要將它們都獲取到,如果是用前面的 find 函式的話,每次只能獲取一個 li 標籤。所以我們需要使用 find_all 函式,一次性獲取所有符合條件的標籤,儲存為陣列返回

4、如何獲得標籤資料

<!--第一種,位於標籤內容裡-->
<p>這是資料這是資料</p>

<!--第二種,位於標籤屬性裡-->
<a href="/xxx.xxx_xx_xx.html"></a>