Python爬取豆瓣電影的短評資料並進行詞雲分析處理

嗨學程式設計發表於2019-01-05

原文網址 : https://juejin.im/post/5c306274f265da61641428d8

Python爬取豆瓣電影的短評資料並進行詞雲分析處理

前言

對於爬蟲很不陌生，而爬蟲最為經典的案例就是爬取豆瓣上面的電影資料了，今天小編就介紹一下如果爬取豆瓣上面電影影評，以《我不是藥神》為例。

基本環境配置

版本：Python3.6

系統：Windows

相關模組：

（1）requests：用來簡單資料請求。

（2）lxml：比BeautiSoup更快更強的解析庫。

（3）pandas：資料處理神器。

（4）time：設定爬蟲訪問間隔。

（5）random：生成隨機數，配合time使用。

（6）tqdm：顯示程式執行進度。

以上模組如果你沒有安裝可以在cmd命令提示符裡進行pip install + 模組名 進行安裝。

本人對於Python學習建立了一個小小的學習圈子，為各位提供了一個平臺，大家一起來討論學習Python。歡迎各位到來Python學習群：960410445一起討論視訊分享學習。Python是未來的發展方向，正在挑戰我們的分析能力及對世界的認知方式，因此，我們與時俱進，迎接變化，並不斷的成長，掌握Python核心技術，才是掌握真正的價值所在。

主要思路步驟

1、開啟豆瓣電影《我不是藥神》的短評網頁，右鍵檢查或者按F12，然後選擇使用者名稱和評論就會顯示出對應的程式碼部分

Python爬取豆瓣電影的短評資料並進行詞雲分析處理

2、通過requests模組傳送一個get請求，並以utf-8重新編碼；

3、新增一個互動，判斷是否成功獲取到資源（狀態碼為200），輸出獲取狀態。

對於爬取下來《我不是藥神》的短評內容，我們用lxml來進行解析。在步驟1中找到對應部分的程式碼，然後右鍵選擇Copy，再選擇Copy XPath，就能獲取其路徑了。

注意：

爬取下來的短評首尾可能有多餘的空格，我們就需要使用字串中的strip()方法來去掉這些多餘的空格。

4、獲取到資料之後，我們通過list構造dictionary，然後通過dictionary構造dataframe，並通過pandas模組將資料輸出為csv檔案

實現程式碼

Python爬取豆瓣電影的短評資料並進行詞雲分析處理

執行結果

Python爬取豆瓣電影的短評資料並進行詞雲分析處理

Python爬取豆瓣電影的短評資料並進行詞雲分析處理

當然了，如果你想要用這些資料做成詞雲圖，進行資料展示也是可以的。

詞雲實現程式碼

Python爬取豆瓣電影的短評資料並進行詞雲分析處理

相關文章

教你用python登陸豆瓣並爬取影評
2019-03-04
Python
python更換代理爬取豆瓣電影資料
2019-08-03
Python
scrapy爬取豆瓣電影資料
2021-09-11
Python爬取分析豆瓣電影Top250
2018-09-07
Python
【python爬蟲案例】利用python爬取豆瓣電影TOP250評分排行資料！
2024-09-18
Python爬蟲
爬取豆瓣電影Top250和資料分析
2022-06-20
python爬蟲爬取豆瓣電影 1-10 ajax 資料
2024-07-04
Python爬蟲
使用python爬取豆瓣電影TOP250
2021-03-11
Python
python讀取txt文字資料進行分詞並生成詞雲圖片
2020-11-21
Python分詞
Python爬蟲筆記（4）：利用scrapy爬取豆瓣電影250
2018-11-10
Python爬蟲筆記
Python爬蟲教程-17-ajax爬取例項（豆瓣電影）
2018-09-06
Python爬蟲
【python爬蟲案例】利用python爬取豆瓣讀書評分TOP250排行資料
2024-09-20
Python爬蟲
爬蟲01:爬取豆瓣電影TOP 250基本資訊
2020-12-29
爬蟲
【python】爬取疫情資料並進行視覺化
2020-09-24
Python視覺化
用python寫一個豆瓣短評通用爬蟲(登入、爬取、視覺化)
2020-10-24
Python爬蟲視覺化
Lua從電腦端爬取短影片評論並作商業化分析
2024-01-17
scrapy入門：豆瓣電影top250爬取
2019-02-16
豆瓣電影更改短評顯示機制不再顯示全部短評
2022-02-28
Python爬取電影天堂
2018-11-01
Python
豆瓣top250資料爬取
2020-11-09
正規表示式_爬取豆瓣電影排行Top250
2021-07-07
python爬取前程無憂和拉勾資料分析崗位並分析
2021-09-09
Python
使用Python進行Web爬取和資料提取
2020-07-28
PythonWeb
python爬取股票資料並存到資料庫
2021-03-29
Python資料庫
python——豆瓣top250爬取
2021-01-02
Python
Python實踐之合併WOS文獻資料，並對關鍵詞進行詞頻分析
2021-03-09
Python
Python反爬：利用js逆向和woff檔案爬取貓眼電影評分資訊
2022-01-30
PythonJS
豆瓣短評榜單短評下載
2024-08-11
Python3爬取貓眼電影資訊
2020-11-06
Python
【資料視覺化】周杰倫新歌《Mojito》豆瓣短評資料
2020-06-26
視覺化
【Python爬蟲&資料分析】2018年電影，你看了幾部？
2018-12-06
Python爬蟲
爬蟲如何爬取貓眼電影TOP榜資料
2019-06-17
爬蟲
如何爬取 python 進行多執行緒跑資料的內容
2023-11-09
Python執行緒
【Python】從0開始寫爬蟲——轉身扒豆瓣電影
2018-08-16
Python爬蟲
Springboot+JPA下實現簡易爬蟲--爬取豆瓣電視劇資料
2020-10-15
Spring Boot爬蟲
如何用 Scrapy 爬取網站資料並在 Easysearch 中進行儲存檢索分析
2024-09-12
網站
Python資料預處理:Dask和Numba並行化加速!
2018-06-06
Python並行
豆瓣電影TOP250爬蟲及視覺化分析筆記
2021-11-09
爬蟲視覺化筆記