Python爬取豆瓣電影的短評資料並進行詞雲分析處理

嗨學程式設計發表於2019-01-05
Python爬取豆瓣電影的短評資料並進行詞雲分析處理

前言

對於爬蟲很不陌生,而爬蟲最為經典的案例就是爬取豆瓣上面的電影資料了,今天小編就介紹一下如果爬取豆瓣上面電影影評,以《我不是藥神》為例。

基本環境配置

版本:Python3.6

系統:Windows

相關模組:

(1)requests:用來簡單資料請求。

(2)lxml:比BeautiSoup更快更強的解析庫。

(3)pandas:資料處理神器。

(4)time:設定爬蟲訪問間隔。

(5)random:生成隨機數,配合time使用。

(6)tqdm:顯示程式執行進度。

以上模組如果你沒有安裝可以在cmd命令提示符裡進行pip install + 模組名 進行安裝。

本人對於Python學習建立了一個小小的學習圈子,為各位提供了一個平臺,大家一起來討論學習Python。歡迎各位到來Python學習群:960410445一起討論視訊分享學習。Python是未來的發展方向,正在挑戰我們的分析能力及對世界的認知方式,因此,我們與時俱進,迎接變化,並不斷的成長,掌握Python核心技術,才是掌握真正的價值所在。

主要思路步驟

1、開啟豆瓣電影《我不是藥神》的短評網頁,右鍵檢查或者按F12,然後選擇使用者名稱和評論就會顯示出對應的程式碼部分

Python爬取豆瓣電影的短評資料並進行詞雲分析處理

2、通過requests模組傳送一個get請求,並以utf-8重新編碼;

3、新增一個互動,判斷是否成功獲取到資源(狀態碼為200),輸出獲取狀態。

對於爬取下來《我不是藥神》的短評內容,我們用lxml來進行解析。在步驟1中找到對應部分的程式碼,然後右鍵選擇Copy,再選擇Copy XPath,就能獲取其路徑了。

注意:

爬取下來的短評首尾可能有多餘的空格,我們就需要使用字串中的strip()方法來去掉這些多餘的空格。

4、獲取到資料之後,我們通過list構造dictionary,然後通過dictionary構造dataframe,並通過pandas模組將資料輸出為csv檔案

實現程式碼

Python爬取豆瓣電影的短評資料並進行詞雲分析處理

執行結果

Python爬取豆瓣電影的短評資料並進行詞雲分析處理

Python爬取豆瓣電影的短評資料並進行詞雲分析處理

當然了,如果你想要用這些資料做成詞雲圖,進行資料展示也是可以的。

詞雲實現程式碼

Python爬取豆瓣電影的短評資料並進行詞雲分析處理


相關文章