前言
對於爬蟲很不陌生,而爬蟲最為經典的案例就是爬取豆瓣上面的電影資料了,今天小編就介紹一下如果爬取豆瓣上面電影影評,以《我不是藥神》為例。
基本環境配置
版本:Python3.6
系統:Windows
相關模組:
(1)requests:用來簡單資料請求。
(2)lxml:比BeautiSoup更快更強的解析庫。
(3)pandas:資料處理神器。
(4)time:設定爬蟲訪問間隔。
(5)random:生成隨機數,配合time使用。
(6)tqdm:顯示程式執行進度。
以上模組如果你沒有安裝可以在cmd命令提示符裡進行pip install + 模組名 進行安裝。
本人對於Python學習建立了一個小小的學習圈子,為各位提供了一個平臺,大家一起來討論學習Python。歡迎各位到來Python學習群:960410445一起討論視訊分享學習。Python是未來的發展方向,正在挑戰我們的分析能力及對世界的認知方式,因此,我們與時俱進,迎接變化,並不斷的成長,掌握Python核心技術,才是掌握真正的價值所在。
主要思路步驟
1、開啟豆瓣電影《我不是藥神》的短評網頁,右鍵檢查或者按F12,然後選擇使用者名稱和評論就會顯示出對應的程式碼部分
2、通過requests模組傳送一個get請求,並以utf-8重新編碼;
3、新增一個互動,判斷是否成功獲取到資源(狀態碼為200),輸出獲取狀態。
對於爬取下來《我不是藥神》的短評內容,我們用lxml來進行解析。在步驟1中找到對應部分的程式碼,然後右鍵選擇Copy,再選擇Copy XPath,就能獲取其路徑了。
注意:
爬取下來的短評首尾可能有多餘的空格,我們就需要使用字串中的strip()方法來去掉這些多餘的空格。
4、獲取到資料之後,我們通過list構造dictionary,然後通過dictionary構造dataframe,並通過pandas模組將資料輸出為csv檔案
實現程式碼
執行結果
當然了,如果你想要用這些資料做成詞雲圖,進行資料展示也是可以的。