在遊戲的世界裡,我們能通過大資料分析知道哪些祕密?

遊資網發表於2019-08-22
探索遊戲世界:遊戲銷量資料的深度分析

前幾天在網上衝浪的時候偶然發現了《Video Sales Data》這樣一個資料集,非常開心,於是著手做了一些分析,希望能跟大家一起從資料分析的角度來感受一下游戲世界。

資料集中包含55864條遊戲資料,記錄了這些遊戲的名稱、發行時間、平臺、發行商、全區銷量(百萬)、主要分割槽銷量(百萬)等資訊。

由於遊戲銷售額並不是公開資料,資料來源的銷售資料實際上是估計值,所以在一定程度上,會有實際值與資料中的估計值存在偏差的現象。有些遊戲並沒有銷售額資料,僅有發售數量資料,由於我們很難從發售數量估計銷售額,所以在分析中忽略了這一小部分遊戲。其中包括1985年發售的《馬里奧兄弟》、06年發售的《Wii Sports》、17年PC平臺的《PUBG》等。另外,有些遊戲是沒有評估銷量資料的,比如,(劃掉)黑暗劍(劃掉)《黑暗之魂3》,所以沒法出現在我們的分析中。遺憾,遺憾。

也由於資料本身的不夠充足,以及作者能力的有限,本文的分析無法達到100%的真實。希望擁有更完善的資料的朋友能夠分享給我,非常歡迎指導、討論,感謝。

遊戲名裡最常出現的字

從資料集裡首先我們就得到了從1970年到2019年初所有電子遊戲的名字。不如來分析一下開發者最喜歡給遊戲起什麼樣的名字吧。

對遊戲名稱進行文字分析,將遊戲名拆分成英文詞根,分析每個詞根出現的詞數,前15名常出現在遊戲名稱裡的英文詞根分別有:

在遊戲的世界裡,我們能通過大資料分析知道哪些祕密?

你能列舉出多少個名字裡有game或者world的遊戲呢?雖然game和world這兩個詞最常出現,但目前沒有一個遊戲的名字裡同時包含這兩個詞的。也是很神祕。

這樣的圖或許在感官上還是沒有什麼確實的感覺,我做一個詞雲來感受一下:

在遊戲的世界裡,我們能通過大資料分析知道哪些祕密?

美妙的事情出現了,圖中心的兩個最高頻詞是Game World。我們在探索遊戲世界的路上,肩膀不小心就碰到了遊戲世界本身啊。game和world其實就像"小紅"和"小明",每年有多少"父母"給"孩子"起名叫他們倆呢?

在遊戲的世界裡,我們能通過大資料分析知道哪些祕密?

看來很久之前叫小明的更多,但是在05年的時候小紅突然反超,甚至在09年的時候它倆一起登上了取名頂峰。09年發生了啥?

時間與遊戲發售量

讓我們來看看每年遊戲的發售數量情況:

在遊戲的世界裡,我們能通過大資料分析知道哪些祕密?

原來是09年發售了非常非常多的遊戲,高達四千多個。為什麼09年遊戲這麼多呢?作者也很好奇這個問題的答案,非常希望有人能解答一下:)從圖中我們也可以看到,過去的幾年,或者說到今天我們也正在經歷遊戲發售量的下跌。

大家應該都有一種感覺:每年元旦之後的一小段時間裡新遊戲總是特別多。我們的這種感受符合真實情況嗎?來看看1970年到2019年初,每個月的遊戲總髮售數量:

在遊戲的世界裡,我們能通過大資料分析知道哪些祕密?

的確,每年1月份的遊戲發售量是全年最高的,或許是大家都趕著過年,都想新年新氣象在一月發遊戲,12月的新遊戲數量非常低,2月的新遊戲數量出現了非常明顯的下跌。第二個發遊戲高峰月是11月。或許有廠商再發新遊戲可以選擇新遊戲最少的五月,1月攢的遊戲都打完了,大家的錢包都鼓鼓的,競爭對手還少了不少。

平臺與銷量

看到資料集中包含平臺資訊,微軟、任天堂、PlayStation(排名不分先後!)三大平臺的粉絲可能已經在摩拳擦掌了。好了啦不要再打了啦,讓我們看看從1970年到2019年初,各個平臺的總銷售額到底誰高誰低:

在遊戲的世界裡,我們能通過大資料分析知道哪些祕密?

前五名PS就包攬了4位。還能說什麼呢,索尼大法賺錢就完事了。


發行商與銷量

遊戲發行商是玩家的老朋友了。這些年來,哪些發行商從我們口袋裡拿走的錢最多呢?

在遊戲的世界裡,我們能通過大資料分析知道哪些祕密?

動視、EA、育碧、索尼都是搶錢高手。值得一提的是動視的使命召喚系列,在文章後續部分也會提到,使命召喚系列遊戲的銷售額非常驚人,驚人之處不只是銷量高,而是整個系列銷量非常高的作品又非常多。真的是賺到極致。

那麼哪些發行商最敬業、每年發行遊戲數量最多呢?

在遊戲的世界裡,我們能通過大資料分析知道哪些祕密?

看到銷售額前幾名,或許我們會覺得遊戲發行公司是不是都很賺錢?其實不是的。除去沒有記錄發行商的遊戲,在所有在冊的3146家發行商中,有1171個發行商只發行過1個遊戲。發行過5個遊戲以下的發行商有2299個,佔全部的73%。

在遊戲的世界裡,我們能通過大資料分析知道哪些祕密?

實際上,發行超過50個遊戲的公司已經是鳳毛麟角了。超過150個的發行商少到被這張圖忽略。在大廠瘋狂賺錢的同時,還有很多小廠在默默努力著,也有非常多的發行商簡單試水之後就不再選擇繼續發行遊戲了。

"只有我們get得到"

如果你是歐美玩家,你可能覺得世界上賣得最好的遊戲是《GTA5》,但如果你是日本玩家,或許你會覺得賣得最好的是《怪物獵人:世界》。歐洲、美國、日本,這些不同地區和文化的玩家對於遊戲的選擇會有很大的不同嗎?

答案是:Yes。

如果我們把賣得好定義為,一個遊戲的銷售額超過了這個區域的95%的遊戲,也就是,超過了95%分位數;把賣得沒有別的地區好定義為,銷售額小於95%分位數的80%。那我們就可以根據這個標準衡量一下各個地區的"只有我們get得到"的遊戲清單。以下列出了各個地區獨有的前十名:

在遊戲的世界裡,我們能通過大資料分析知道哪些祕密?

從"All"表格裡我們能看到COD系列的驚人程度:三個大區都賣得非常好,前十位佔了六個。強。從北美才get得到的表格裡我們能看到有不少體育遊戲,和美國的體育文化非常符合。從日本才get得到的表格裡有很多隻在日本發行的遊戲,這些遊戲也和日本的審美、文化比較一致。


建立模型預測銷量

我在這裡使用了隨機森林方法,用遊戲的型別、發行月份、發行商、開發商、平臺五個變數對北美地區的銷售額進行建模。之所以這樣的原因是這幾個變數是資料集目前能夠提供的變數以及我自己思考從資料集中衍生出來的變數,而選擇北美地區則是考慮到不希望地區對銷售資料產生過多干擾,而隨機森林方法個人覺得在這裡更合適一點。最後得到的結果是模型的正確率為78.6%。

由於建模過程以及手段方法大部分玩家讀者應該都不熟悉、也不太感興趣,所以我不浪費篇幅描述了。得到這個模型的好處是,如果有新遊戲發售,這個模型都有78.6%的機率能正確預測最終銷售額取值區間。(這個區間並不是很寬泛。)

"年度最賣座遊戲"

雖然說遊戲賣座有些不太恰當,但在文章的最後,還是讓我們來看看十年來每一年賣得最好的遊戲都是哪些吧:

在遊戲的世界裡,我們能通過大資料分析知道哪些祕密?

從2013年開始銷量最高的遊戲從X360平臺轉移到了PS平臺上,到2018年都沒有回頭。《GTA5》竟然連續兩年在不同的平臺上賣出了全年最高的成績,而且單年的銷量至今無人超越,更不用說多平臺多年的總數了。COD系列在X360之外的PS4上也能殺出重圍,真是迷人。《FIFA 17》和《荒野大鏢客2》牛逼。

感謝你的閱讀。希望你從這篇分析中能感受到快樂。

作者:韓Han
來源:機核網
原地址:https://www.gcores.com/articles/113902

相關文章