Python資料分析入門(一)

NGU發表於2018-08-19

寫在前面

前段時間小編寫了一篇關於《我不是藥神》的票房分析,讀者們的反映都還不錯。於是在後臺留言。希望我能多寫寫關於資料分析的基礎案例。畢竟關注本公眾號的大都是資料分析的小白。本著一起學習進步的想法,小編這兩天思索再三。於是就想著先做個衛視收視率的對比分析來幫助廣大愛好者入門。並且接下來的一系列文章,我都會從基礎到進階,來讓你們對資料分析產生更濃厚的興趣並且更加輕鬆的掌握這門技能。

本次案例相關包

Python資料分析入門(一)


資料爬取

收視率實時實時資料可在歡娛網(http://www.csm-huan.com)中獲取,由於此網站頁面是經過JavaScript渲染後所得。所以在此我們使用了Selenium來自動化抓取頁面資料。網站的介面如下。

Python資料分析入門(一)

我們要抓抓取的資訊為頻道、節目以及實施收視率。即後面的分析也會圍繞此而展開。


資料分析

從網站爬取資料之後,我們需要通過特定的方法將每個頻道與各省市相結合,即需要將地圖與實時收視率資料結合起來,投放到地圖上。在完成了這些階段後,我們就可以進入到視覺化階段。在此我們選擇了pyecharts庫來作為我們的視覺化庫,有關pyecharts庫的講解可見資料分析之pyecharts庫


資料視覺化-全國地圖對應衛視資料展示

小編在此採集的衛視實時收視率資料為8.18日當天的上午,中午,和晚上三個時間段的實時衛視收視率資料。全國地圖對應衛視收視率資料展示如下。

Python資料分析入門(一)

Python資料分析入門(一)

Python資料分析入門(一)


我們再來將各省市的實時收視率資料做一個對比


資料視覺化-各省市衛視收視率資料對比展示


Python資料分析入門(一)


Python資料分析入門(一)


首先,從全國衛視實時收視率地圖中我們可以看出8.18日當天上午期間收視率較高的地區是山東,浙江,湖南,江蘇等省。下午時段收視率前三的地區則是浙江,安徽,江蘇三省。而到了晚上時段收視率地區最高的為湖南,其次是山東,江蘇和江西等地區。我們再來看看各省市衛視收視率資料對比圖。從圖上可以看出每個時間段的前五名地區的收視率之間波動都比較大,呈陡峭狀,後面各個省市的收視率相差不大,所以折線圖較為平滑。

其次,我們來分析三個時段中收視率較高的省市衛視的各自節目情況,我們收視率較高的省市對應到其各自節目中去,然後進行分析。最後我們發現,上午收視率較高的幾個省市衛視節目大都為股市和民生類節目,而下午期間收視率較高的省市衛視節目大都播放一些經典電視劇和經典綜藝類節目。到了晚上期間毫無疑問則是綜藝節目和電視劇類節目的天下。尤其是湖南地區,我們都知道湖南衛視,並且我們從對比圖中可以看到它的收視率達到了1.5324%。這個資料是很驚人的。比第三的江蘇衛視的收視率2倍還要多。當然這也由於播出的節目是快樂大本營,這也體現出了全國人民對快樂大本營的喜愛,也與我們生活中所瞭解的基本相同。在小編印象當中,湖南衛視和江蘇衛視一直都是比較受身邊朋友喜歡的衛視,這次分析也印證了這個觀點,我們也可以推測三個時間段的受眾人群為中老年群體,青少年群體,以及青少年和青年群體,後續我們可以進行驗證。

最後,我們可以通過全國衛視收視率一圖和各省市收視率對比可以看出收視率後幾名的城市在一天中各個時段都沒有什麼變化,其中主要是西北部城市,這可能也與當地的經濟有一定的關係再加上大眾可能對其節目內容不是很感冒,所以導致其收視率不是很高。所以如果當地衛視節目組想要提高其收視率,可以在節目內容和創作上下下功夫,在這方面,娛樂節目的老大芒果臺可是頗有心得。而且還可以細微看出中東部地區的衛視收視率也一直是壓制著其它地區的。當然,這只是小編採集的一天不同時段的資料,其中部分結論也有猜測為主,如果想進一步的分析的話,我們就需要採集一段時間的實時資料了。並且如果想更清楚的知道各個城市的實時收視率對比,我們也可以將各省市衛視收視率資料融合到各省的輪廓當中,然後再綜合來進行對比分析。這樣就應該可以得出一份比較準確的分析結果了。


需要程式碼的讀者可以關注公眾號後獲取


對爬蟲,資料分析,演算法感興趣的朋友們,可以加微信公眾號 TWcoding,我們一起玩轉Python。

If it works for you.Please,star.

自助者,天助之

Python資料分析入門(一)





相關文章