Python一鍵獲取日漫Top100榜單電影資訊

Python知識圈發表於2020-05-25

原文網址 : https://www.cnblogs.com/pythoncircle/p/12961048.html

最近看到一個 UP 主做的視訊，使用視覺化動態圖，把目前播放量最多的 UP 主一一列出來，結果第一名是嗶哩嗶哩番劇，第一名的播放量是第二名近 10 倍。

B站的番劇數量，也是相對其他平臺比較多的，而且質量都還不錯。說實話，剛開始用嗶哩嗶哩的時候，就是為了看番劇。作為一個喜歡看番劇的 pk 哥，我決定用爬蟲爬取一下日本動漫電影 TOP100 都有哪些？網上看了一下，時光網正好有這個排行榜，而且資訊相對來說比較全。

所以我決定用爬蟲把這個榜單上 Top100 的所有電影資訊全部儲存為 csv 檔案放在本地，看有沒有之前我遺漏的經典動漫電影。

以下是儲存的效果。儲存的列包括電影名稱、導演編劇、發行公司、更多片名、評分、首日票房、總票房。有些電影沒有評分和票房資訊的就直接顯示為空。

獲取電影ID資訊

本次爬蟲專案主要分為三個部分。第一部分我們要獲取電影的 Id資訊，因為我們需要儲存的所有資訊，都和這個有關。Id從哪裡獲取呢？我們開啟這個榜單頁面的原始碼。原始碼中我們可以看到，id都在連結後面。

為了縮小範圍，我們發現這些連結都在 class=top_nlist 裡面，我們用 beautifulsoup 庫提取屬性 class= top_nlist 所有的元素。然後用正規表示式，提取出每頁的 id資訊。

這裡第 1 個頁面需要特殊處理一下，因為第 2 個頁面到第 10 個頁面後面都是直接帶的數字，第 1 個頁面直接我在後面加 -1 的話會報 404，所以這個頁面單獨拿出來提取頁面資訊。然後再把 ID 資訊全部加到空列表裡面。

提取評分和票房資訊

ID 資訊獲取了，接下來我們通過 ID 資訊來獲取電影的評分和票房資訊。通過 F12 除錯我們可以看到。評分和票房資訊在 js 裡面。

請求連結裡變化的就是電影的 ID ，其他的保持不變就好。

我們對返回資訊通過簡單的處理轉換為 Json 格式。之後我們就可以直接通過 key 值提取 value 值了。這裡主要提取的資訊有：評分、首日票房和總票房。

提取其他電影詳細資訊

接下來我們需要通過 ID 資訊獲取對應電影的名稱和導演編劇等詳細資訊。這些資訊在原始碼中，可以直接通過正規表示式來提取。

用正規表示式提取資訊的前提是我們要找到資訊的規律。這樣通過正規表示式提取就又快又準。

提取了這些資訊之後，我們把它儲存在 list 列表中，這樣做的目的是為了後面我們儲存為 csv 檔案做準備。

儲存為csv檔案

每頁的資訊獲取了之後，我們就可以把這些資訊追加儲存到 csv 檔案中。每儲存一部電影資訊，儲存下一部電影資訊就進行追加儲存。為了避免儲存後的 csv 檔案開啟出現亂碼，我們需要將編碼形式設定為 encoding='utf-8' 格式。

通過這三步，這個 Top100 排行榜中的所有動漫電影資訊都全部儲存在本地的 csv 檔案中啊。那我們就可以更方便的瀏覽這些電影資訊。這樣我們就可以更好的追番了。本文所有的程式碼資訊可在公眾號「Python知識圈」後臺回覆「動漫電影」獲取。

python爬取貓眼電影top100儲存到CSV
2018-08-25
Python
Python3爬取貓眼電影資訊
2020-11-06
Python
nodejs爬蟲獲取漫威超級英雄電影海報
2018-05-12
NodeJS爬蟲
python 一鍵獲取郵件附件
2020-06-22
Python
Python網路爬蟲實踐案例：爬取貓眼電影Top100
2024-11-21
Python爬蟲
python-爬蟲-css提取-寫入csv-爬取貓眼電影榜單
2023-04-05
Python爬蟲CSS
Python呼叫ansible API系列（一）獲取資產資訊
2019-04-09
PythonAPI
【Python】獲取機器使用資訊
2018-12-13
Python
用Python網路爬蟲獲取Mikan動漫資源
2020-08-26
Python爬蟲
豆瓣：2023年度電影榜單《流浪地球 2》斬獲最高評分華語電影
2023-12-26
Python爬取電影天堂
2018-11-01
Python
爬蟲如何爬取貓眼電影TOP榜資料
2019-06-17
爬蟲
使用Python獲取ECS相關資訊
2018-12-09
Python
【Python小隨筆】 SSH 獲取資訊
2024-03-23
Python
豆瓣：2019年度電影榜單《哪吒》領跑高分華語電影榜
2019-12-20
python更換代理爬取豆瓣電影資料
2019-08-03
Python
07、一鍵下電影
2019-04-11
Python一鍵爬取你所關心的書籍資訊
2019-03-05
Python
Python下獲取視訊的旋轉角度資訊
2020-12-29
Python
Lazada詳情API介面：一鍵獲取商品資訊的深度實踐
2023-11-28
API
Linux基礎（一）：獲取LinuxCPU資訊
2018-12-29
Linux
獲取位置資訊
2019-03-15
淘寶詳情API介面：一鍵獲取商品資訊的實踐探索
2023-11-28
API
一個vue的電影資訊demo
2018-07-04
Vue
Python 超簡單爬取微博熱搜榜資料
2020-05-13
Python
HGDB怎麼獲取資料庫中關鍵系統資訊
2021-09-29
資料庫
爬蟲01:爬取豆瓣電影TOP 250基本資訊
2020-12-29
爬蟲
手把手教你爬取優酷電影資訊-2
2021-02-26
手把手教你爬取優酷電影資訊 -1
2021-02-26
python 呼叫 shell ，獲取返回值和返回資訊
2019-01-15
Python
python使用ldap3獲取使用者資訊
2024-09-13
PythonLDA
Python獲取jsonp資料
2023-05-09
PythonJSON
Python 系統資源資訊獲取工具，你用過沒？
2018-11-28
Python
Onesight：2022年第一季度BrandOS TOP100出海品牌社媒影響力榜單
2022-04-28
Python反爬：利用js逆向和woff檔案爬取貓眼電影評分資訊
2022-01-30
PythonJS
透過1688店鋪所有商品API介面一鍵獲取店鋪所有商品資訊
2023-11-29
API
揭秘淘寶店鋪所有商品介面：一鍵獲取海量熱銷寶貝資訊
2023-10-09
python爬蟲爬取豆瓣電影 1-10 ajax 資料
2024-07-04
Python爬蟲

Python一鍵獲取日漫Top100榜單電影資訊

獲取電影ID資訊

提取評分和票房資訊

提取其他電影詳細資訊

儲存為csv檔案

相關文章