如何科學客觀地給一款遊戲打分?

遊資網發表於2019-11-19
如何科學客觀地給一款遊戲打分?


心誠則靈。

1

最近,遊戲評分又在玩家之間引發了不少的爭議。圍繞著著名遊戲媒體IGN對《死亡擱淺》打出6.8分的同時對《寶可夢 劍/盾》給出了9分的高分,不少人表示了對媒體評分的不認同:IGN的評分就是圖個樂!

如何科學客觀地給一款遊戲打分?

其實遊戲評分的爭議不只發生在IGN身上,很多媒體都曾因遊戲評分或高或低而招致非議。

問題在於矛盾性:遊戲評分給人的感覺應該相對客觀公正,但實際上它卻充滿主觀要素——遊戲媒體的評測工作通常由一個人獨立完成,而且為了保證獨立性而不允許他人干預。

但即使IGN、GameSpot這樣的傳統大媒體,評分也並沒有統一的標準,雖然這些編輯會盡量用專業客觀的角度來評判一款遊戲,但從根本上來說,他們仍是以自己的標準來打分的。所以同一款遊戲的媒體評分和玩家評分出現較大出入時有發生。

如何科學客觀地給一款遊戲打分?

創造一個科學客觀的評分方法有那麼難嗎?

雖然本人的數學很爛,但我有理由相信自己能夠一勞永逸的解決這個問題。


2

遊戲是多種多樣的,有些遊戲是高成本、大製作,著名團隊製作、大牌明星加盟。有些遊戲可能只是某個大學生的畢業設計,幾乎沒有人聽說過。我們對大遊戲比較挑剔,對小遊戲比較容忍,遊戲在成本、質量、知名度上的巨大差異,決定了對於它們的評分方式也應該分而治之。

因此建立模型的第一步,我們按照馬克思列寧主義階級論,劃分遊戲的階層。

如何科學客觀地給一款遊戲打分?

生產資料佔有關係將是我們進行階級劃分的唯一正確的標準。

對於遊戲來說,獨立遊戲開發者對遊戲擁有絕對的控制。隨著遊戲規模變得越來越大,製作者對於作品的掌控也會變得越來越少,而對於一些遊戲工作室來說,生產資料完全掌握在大發行商手中。

因此根據製作者對於遊戲的控制權,可以將遊戲分為幾個階層。

不同階層的遊戲開發目標、受眾不同,評分標準也不同。

把上層資產遊戲和中層資產遊戲為第一類遊戲,因為這些遊戲往往以獲得商業成功為目標,成本更高,質量更好,也更會迎合大眾的喜好,因此大眾的評分對於這些遊戲有較好的一致性。不要誤以為是因為它們的資料比較容易查。

剩下的兩類遊戲為第二類遊戲。這些遊戲往往是獨立開發的,或者銷量不高,或無人知曉,所以沒有很多的統計資料可以參考。

它們的評分標準也更加複雜。製作者的初衷未必是追求商業上的成功或者迎合大多數玩家的口味,因此這些遊戲的評分往往會出現兩極分化,一個玩家覺得無趣的遊戲可能會在另一個玩家眼中是難得的精品。再加上它們的銷量整體較小,玩家樣本也少(換句話說就是沒法算),因此它們的評分需要分開計算。

下一步,我們就可以開始計算遊戲的評分了。

第一類遊戲:

要對第一類遊戲評分,首先我們要確定影響遊戲體驗的因素。

遊戲體驗是很難簡單量化的,此前有不少人嘗試過用數字去衡量一款遊戲的體驗,為此他們開發了一套完整的調查問卷系統,稱為遊戲投入度問卷(GEQ),通過讓玩家回答一系列具體問題來獲得一個最終的得分,比如“我覺得遊戲很容易上手”“我覺得遊戲很好操控”。

如何科學客觀地給一款遊戲打分?

不同的研究中選擇的影響因素也不同,可能包括注意力、代入感、成就感、美術、個人興趣等等。還有人通過探索性因素分析法和驗證性因素分析法,來確定影響遊戲體驗的因子。

但不論是哪種方式,都有需要通過調查多個層面的幾十個小問題來實現科學的統計。

但對於每一款遊戲都進行大規模的調查是不現實的,我們需要的是能夠普遍用於多數遊戲的通用公式,最好是利用現有資料就可以完成的。

在日常衡量遊戲的指標中,我們首先想到的自然是媒體評分。但就像開頭說的,媒體評分的波動性很大。媒體評分的形式更接近統計學中的立意抽樣或專家抽樣,屬於非概率抽樣,因此結果只能用做參考,而並不能用來推算本體。使我們使用平均得分,因為總體的樣本量小,也會很不準確。

因此我們選擇metacritic上的使用者平均分S0作為評分的基準,雖然使用者評分同樣具有主觀性,但因為這些資料樣本量大,相比之下比媒體評分代表性強。

接下來,要考慮的是一款遊戲的關注度對其評分的影響。遊戲的關注度高並不等於評分高,有時反而會成為遊戲變爛的重要誘因,對此《輻射76》有很多話要說。

如何科學客觀地給一款遊戲打分?

因此要科學的計算遊戲評分,我們要考量的是遊戲關注度和真實表現之間的關係。

拋開小眾遊戲不談,對於第一類遊戲來說,好遊戲最真實的表現是什麼?銷量!購買是實實在在的肯定,我們常看到某某遊戲的銷量突破百萬,就是證明這款遊戲很不錯。

但A遊戲比B遊戲的銷量高,不代表A遊戲就比B遊戲好,總會有一邊罵一邊玩的人,所以一款遊戲的真正好壞應該取決於它的表現是否達到了預期。

用遊戲的銷量N除以關注度,就可以得到遊戲的真實購買率α,α越高,就說明這款遊戲越符合大眾的期望,如果α大於1則說明遊戲的表現超過了預期,這樣的遊戲也自然就是更“好”。

那如何體現遊戲的關注度呢?關注度用新詞說就是流量,這裡用遊戲在搜尋引擎中的搜尋結果數量T來代表。

於是有了下面的公式:

如何科學客觀地給一款遊戲打分?

接著我們要找到能夠代表遊戲“好玩程度”的引數。

好玩並不好界定。就拿最近的《死亡擱淺》來說,不少人覺得送貨很無聊,但也有很多人覺得修路實在太上癮了。那麼,如何來衡量一個遊戲是否好玩呢?

遊戲時間可能是一個好的標準。如果一個遊戲很無聊,我還堅持一直玩,那麼……那麼只能說明我就喜歡玩無聊的遊戲,它對我來說就是一個好遊戲。

如何科學客觀地給一款遊戲打分?

但這裡不能單純使用遊戲時間作為引數,如果遊戲太無聊直接讓你睡過去了,那遊戲時間也會大幅增長。

因此這裡我們通過howlongtobeat.com這個網站,找到每款遊戲的平均通關時間。再用每款遊戲的平均遊玩時間t1除以它的平均通關時間t2,就得到一款遊戲的平均停留度。

平均停留度越大,說明玩家越願意留住遊戲中。如果停留度大於1,說明遊戲重複遊玩的價值很高。

如何科學客觀地給一款遊戲打分?

這樣一來我們就有了決定遊戲好壞的三個因素,它們的乘積結果(別問我為什麼是相乘)就是遊戲的科學加權評分。

如何科學客觀地給一款遊戲打分?

最後讓我們用幾個熟悉的遊戲做個測試,結果如下:

如何科學客觀地給一款遊戲打分?

我不知道為什麼只狼的得分如此低,科學就是如此神奇,大概是因為太難導致流量太多、銷量太少吧。

這種評分方式存在一些“小問題”:對於剛發售的遊戲,因為銷量和評分還不穩定,無法使用(發售時間不同的遊戲之間相比也有失公平)。再有就是不少遊戲的銷量無法查到,有些遊戲不存在通關,還有除Steam平臺之外的資料都很難查到。

沒關係,我們對“第二類遊戲”的評分方式會變得更加客觀的。

第二類遊戲:

下一步,我們要對無產階級遊戲和小資產遊戲進行評分。

這種作品往往沒有大規模的受眾,或者沒有詳盡的資料進行參考。因此我們需要利用自己的評分,並儘可能的讓評分真實有效。

不是因為我編不下去了,我們知道個人對一款遊戲的打分往往受到情緒的影響,對喜歡的遊戲吹爆,而對於不喜歡的遊戲則一黑到底。所以個人對遊戲的評分通常呈現非10即0的情況。

如果玩家對一款遊戲相當興奮,那麼他對遊戲的評分x,會隨著興奮程度n的變大而發生x=10n的指數型增長。

由此我們可以得到興奮指數n。

如何科學客觀地給一款遊戲打分?

如果取評分的滿分為10分,那麼減去興奮度之外的部分為真實評分,再用真實評分除以興奮指數,可以得到真實評分率β。

如何科學客觀地給一款遊戲打分?

於是最終的遊戲真實評分y可如下計算。

如何科學客觀地給一款遊戲打分?

經過我對公式進行化簡,結果如下:

如何科學客觀地給一款遊戲打分?

可以看出,對第二類遊戲的真實評分就是你對於遊戲的評分。

所以至此我們終於一個科學結論:遊戲評分還得信自己。

以上就是我的遊戲評分方法,雖然不一定正確,但至少科學,即使不科學,也至少客觀,哪怕不客觀,也足以讓你在與其他人的辯論中立於不敗之地。

因為即使對方想駁斥你,也起碼得寫出一個同樣科(wu)學(liao)的論證來。而在這之前,你已經證明了自己的評分比IGN更客觀,這就夠了。


作者: 石葉young  
來源:遊戲研究社
原地址:https://mp.weixin.qq.com/s/peCbWn7LAQfhErhtdj3xgg

相關文章