![Python爬取豆瓣電影的短評資料並進行詞雲分析處理](https://i.iter01.com/images/aa5b665db36078dde218ef28b244133735094c471fe1aca8b7c645cd027d6553.jpg)
前言
對於爬蟲很不陌生,而爬蟲最為經典的案例就是爬取豆瓣上面的電影資料了,今天小編就介紹一下如果爬取豆瓣上面電影影評,以《我不是藥神》為例。
基本環境配置
版本:Python3.6
系統:Windows
相關模組:
(1)requests:用來簡單資料請求。
(2)lxml:比BeautiSoup更快更強的解析庫。
(3)pandas:資料處理神器。
(4)time:設定爬蟲訪問間隔。
(5)random:生成隨機數,配合time使用。
(6)tqdm:顯示程式執行進度。
以上模組如果你沒有安裝可以在cmd命令提示符裡進行pip install + 模組名 進行安裝。
本人對於Python學習建立了一個小小的學習圈子,為各位提供了一個平臺,大家一起來討論學習Python。歡迎各位到來Python學習群:960410445一起討論視訊分享學習。Python是未來的發展方向,正在挑戰我們的分析能力及對世界的認知方式,因此,我們與時俱進,迎接變化,並不斷的成長,掌握Python核心技術,才是掌握真正的價值所在。
主要思路步驟
1、開啟豆瓣電影《我不是藥神》的短評網頁,右鍵檢查或者按F12,然後選擇使用者名稱和評論就會顯示出對應的程式碼部分
![Python爬取豆瓣電影的短評資料並進行詞雲分析處理](https://i.iter01.com/images/01804ed2e2c8c747933751f45d6cf0d6e21dc5394c15bbe07c71fef726acf214.jpg)
2、通過requests模組傳送一個get請求,並以utf-8重新編碼;
3、新增一個互動,判斷是否成功獲取到資源(狀態碼為200),輸出獲取狀態。
對於爬取下來《我不是藥神》的短評內容,我們用lxml來進行解析。在步驟1中找到對應部分的程式碼,然後右鍵選擇Copy,再選擇Copy XPath,就能獲取其路徑了。
注意:
爬取下來的短評首尾可能有多餘的空格,我們就需要使用字串中的strip()方法來去掉這些多餘的空格。
4、獲取到資料之後,我們通過list構造dictionary,然後通過dictionary構造dataframe,並通過pandas模組將資料輸出為csv檔案
實現程式碼
![Python爬取豆瓣電影的短評資料並進行詞雲分析處理](https://i.iter01.com/images/25059aab3b02227d59c00651ddd76d571deb60ca85f7b9f4ed821e6b6fe65cd7.jpg)
執行結果
![Python爬取豆瓣電影的短評資料並進行詞雲分析處理](https://i.iter01.com/images/81afa924df7a2dfa499f712fd7ba9cc0abd0b6bd44e3192d038859ff6bfd38b4.jpg)
![Python爬取豆瓣電影的短評資料並進行詞雲分析處理](https://i.iter01.com/images/bdd33eba700309ffdbf93f08607c15d6dff2a8b94fce9b94be5e039e39429dbc.jpg)
當然了,如果你想要用這些資料做成詞雲圖,進行資料展示也是可以的。
詞雲實現程式碼
![Python爬取豆瓣電影的短評資料並進行詞雲分析處理](https://i.iter01.com/images/f2bde52b3bde9e3ee7b07445d5fc0a301939fb02728b77694cd657e40a8a1f1c.jpg)