Python資料分析入門(三)

NGU發表於2018-08-23

前言

Hello,大家好,今天又到了我們用資料說話的時候了,今天小編給大家帶來的是從豆瓣5500部電視劇看中國40餘年電視劇發展史,從而瞭解這背後的故事,好了,廢話不多說,我們快快進入此次的正題吧。


資料採集

此次採集的資料來源是豆瓣電視劇版塊,當然有的同學可能會問,為什麼採集的是豆瓣網?那麼小編就來告訴你,豆瓣在書評和影視評論這些方面在國內還是很有權威性,不同於其它平臺評分水分較大,豆瓣的評分標準是比較嚴格的。所以如果大家以後在做書評和影評之類的分析的時候,可以選擇去豆瓣網採集資料,不過豆瓣網的反爬機制也是很強,所以我們還是要採取好的爬蟲策略,從而讓我們的資料採集更加方便。此次採集的頁面為

Python資料分析入門(三)

我們需要採集大陸、香港、臺灣三個版塊共5500部電視劇,首先第一步我們需要從當前頁面獲取每個電視劇的ID

Python資料分析入門(三)

即通過抓取下來的ID後來獲取電視劇的詳細資訊。

Python資料分析入門(三)

通過ID訪問電視劇詳情頁面從而獲得劇名,年份,主演,評分以及評分人數等資料。其中我們將獲取的主演列表中的演員前2位定位主演,後三位定位次主演,也就是說每部電視劇採集5位演員,以做為我們後面為演員參演電視劇評分的依據。

我們回到獲取電視劇ID的頁面,劇集列表的全部展示是通過最下面載入更多的按鈕進行展開,不點選載入更多無法獲取隱藏的劇集目錄,如下圖所示:

Python資料分析入門(三)

所以在這裡我們需要用Selenium自動化模擬滑鼠操作,點選頁面從而獲取更多的電視劇,還有最重要的一點是,細心的讀者可能從前面可以發現,豆瓣電視劇的內容包含綜藝、動畫片、紀錄片。如前面圖片所看到的“舌尖上的中國”,所以我們在抓取下來資料後還需要對這些“髒資料”進行清洗。從而獲得一部完整的電視劇表。資料採集思路講解就到這裡,接下來就進入到資料分析階段。


資料分析

經過漫長的資料篩選後,我們終於得到了我們想要的電視劇列表了,首先我們來看一看豆瓣的整體打分與時間的關係。

Python資料分析入門(三)

不出所料,電視劇的評分隨著年份的增長在逐步下滑,從2011年之後的中位數更是直接到了7分以下。造成這種情況的原因可能性包括了:1.豆瓣受眾比較年輕,老的劇集大家只會關注經典的劇集,過去的非優質(lan)劇評分人數較少 2.現在的非優質劇集佔比越來越高。

其次再來看看電視劇產量和時間的關係


Python資料分析入門(三)

很明顯的可以看出電視劇的產量(2018年請忽略)是隨著年份而快速的增長,其中上世紀80、90年代電視劇以香港產量居多,但是自2000年以後,港劇慢慢走向衰弱,大陸電視劇行業迅速崛起,這也說明我國的改革開放使得經濟的快速增長從而改善了國民的生活質量,人們的娛樂方式也變得多樣化,由之前的看報轉而到看電視、上網一類的活動。

最後,我們再來看看電視劇的總體打分與時間的關係圖

Python資料分析入門(三)

討論完了電視劇整體的質量,我們來看看演員們的演技質量如何,此次我們選取的是代表作10部以上的演員,並且將主演權重設為1.0,次主演權重設為0.6。來篩選出高產且演技評分前30的演員

Python資料分析入門(三)

可以看出這與我們平常所瞭解的還是比較一致的,其中吳秀波,陳道明,蔡少芬、陳寶國,胡歌,張嘉譯,張國立,張鐵林等一些演員都是我們公認的演技派,其中大部分都是國家一級演員和優秀的話劇演員。

再來看看“反面教材”參演電視劇平均分排名後10名的演員

Python資料分析入門(三)

好吧!老戲骨李立群老師的評分較低小編還是感到比較意外的,潘長江老師在小品屆可以說是榮譽滿滿,但在影視界好像沒得到大部分觀眾的認可,榜單中的其它演員也都與我們平常瞭解的情況都差不多,所以在此小編也希望這些後面的年輕演員能夠多拍些好劇,良心劇,從而鹹魚翻身。畢竟作為一個演員,最主要的還是演技。無論做什麼事,我們還是應當少些浮躁,多些寧靜。

最後,我們再來看看豆瓣上一些高評分的電視劇,此次選取的是評分TOP50的電視劇,看看是否與你心中的排名有所出入。

Python資料分析入門(三)

Python資料分析入門(三)

Python資料分析入門(三)




需要原始碼的讀者可以後臺留言,小編看到就會第一時間回覆你。

對爬蟲,資料分析,演算法感興趣的朋友們,可以加微信公眾號 TWcoding,我們一起玩轉Python。

If it works for you.Please,star.


自助者,天助之

Python資料分析入門(三)




相關文章