本文主要摘選了一些遊戲設計者需掌握的統計學話題。特別對於系統設計師、機械設計師、平衡設計師等設計領域的設計師來說,統計學著實有用且很重要。
雖然統計學是一門基於數學的學科,但是它實在很枯燥!嚴格地說——如果你曾經不得不大量地研究雙邊置信區間、學生T檢驗以及卡方分佈測試,有時你會覺得很難消化這些知識點。
一般來說,我是喜歡物理學和力學的,因為很多時候只需簡單地分析一個事例,你就能核實現狀。當你計算蘋果從樹上落下的速度及方向時,如果你的結果是蘋果應以每小時1224英里垂直向上丟擲,也就是實際上你已經在頭腦中核實過結果了。
統計學的優勢在於易理解且具合理性;而劣勢在於它的奇特性。無論如何,這篇文章的話題不會讓你覺得枯燥。因為大部分的話題都是有形的、屬於重要的資料資料,你應有精力去慢慢摸索。
statistics(from wired.com)
統計學:黑暗的科學
統計學是所有學科領域中最易被邪惡勢力濫用的科學。
統計學可以同邪惡行徑相比較是因為在使用不當時,這門學科的分支就會被推斷出各種無意義或者不真實的裙帶關係(參見本文末尾的例項)。如果政治家或其它非專業人士掌控了統計學,那麼他們就可以操縱一些重要決定。一般來說,基於錯誤總結的壞決策從來不受好評。
也就是說,使用得當時,統計學無疑非常有用且有益。而對於強權勢力者來說,他們會將統計學應用於一些非法途徑,甚至是一些純粹無用的渠道。
統計學——所謂的爭議
我已準備好作一個緊湊的總結,然而我注意到維基百科已經對統計學作了定義,而且語言幾近詩歌體系。如下:
統計學是應用數學的一個分支,主要通過收集資料進行分析、解釋及呈現。它被廣泛應用於各個學科領域,從物理學到社會科學到人類科學;甚至用於工商業及政府的情報決策上。(Courtesy Wikipedia.org)
這真的是一段很感人的文章。特別是最後那句“用於情報決策上”。
當然,作者忘記添上“在遊戲設計領域”,但是我們原諒他對這一蓬勃發展的新興行業的無知。
以下為我自己撰寫:
統計學是應用數學的一個分支,它涉及收集及分析資料,以此確定過去的發展趨勢、預測未來的發展結果,獲得更多我們需瞭解的事物。(Courtesy Tylerpedia)
如果將此修改為適用遊戲設計領域,那可以如此陳述:
統計學為你那破損的機制及破碎的設計夢指引了一條光明大道。它為你有意義的設計決策提供了穩定且具有科學性的資料。
須知的事實
統計學同其它硬科學一樣深奧且複雜。如同第一部分的內容一樣,本文只涉及一些精選的話題,我自認為只要掌握這些就足夠了。
再次突擊測驗
很抱歉我要採取另一項測試了。別討厭出題目的人,討厭測試吧。
Q1a)假設有20名測試員剛剛完成新蝸牛賽跑遊戲《S-car GO!》中的一個關卡。你得知完成一圈的時間最少為1分24秒,最多為2分32秒。你期望的平均時間為2分鐘左右。請問這個測試會成功嗎?
Q1b)在同一關卡中你收集了過多的資料,在分析後得出這樣的結果:平均值=2分5秒;標準差=45秒。請問你會滿意這個答案嗎?
Q2)你設計了一款休閒遊戲,不久就要發行。在最後的QA階段,你分佈了一個測試版本,然後收集了所有的資料作為試驗物件。你記錄了1000多位玩家的分數,還有100多位特殊的玩家的分數(有些玩家允許重複玩遊戲)。運算這些資料可知平均分為52000pts,標準差為500pts。請問這遊戲可以發行了嗎?
Q3)你設計了一款RPG遊戲,然後收集資料分析新的玩家從關卡1到關卡5的遊戲程式會有多快。收集的資料如下所示:4.6小時、3.9小時、5.6小時、0.2小時、5.5小時、4.4小時、4.2小時、5.3小時。請問你可以計算出平均值和標準差嗎?
總體和樣本
統計學的基礎為分析資料。在分析資料的時候,你需要了解兩個概念:
1.總體:
總體是指某一領域中所有需要測量的物件。總體是抽象的,只在你需要測量時候才會具體化。比如,你想了解人們對某一特定問題的看法。那你就可以選擇地球上所有的人,或者愛荷華州所有的人或者只是你街道附近所有的人作為一個總體。
2.樣本:
樣本實際上就是指抽取總體中部分用於測量的物件。原因很明顯,因為我們很難收集到所有總體的資料。相對來說,你可以收集部分總體的資料。這些就是你的樣本了。
正確性及樣本容量
統計學結果的可靠性通常由樣本容量的大小決定。
我們完美的想法是希望樣本容量就是我們的總體——也就是說,你想整個收集全部涉及到的資料!因為樣本越少,你就需要估計可能的趨勢(這是一種數學性的推斷)。而且,資料點越多越好;你最好能建立一個大型的總體而不是小型的。
例如,相對於調查10000個初中生對《Fruit Roll-Ups》的感想,試想下調查人員能否詢問到每一個學生。100萬個的數目過於龐大,做不到的話,10萬個也不錯。仍然做不到,好吧,10000個剛剛好。
由於時間和費用的關係,通常呈現出的研究結果都是基於樣本所做的調查。
1.統計學的常識性規則:
你無法通過一個資料點來預測整個趨勢。如果你知道我喜歡巧克力冰淇淋,你不能總結所有的Sigmans都喜歡巧克力冰淇淋。如果現在你詢問我家庭中的許多成員,然後你可能會得出關於他們的想法這類比較合理的結論,或者你至少知道是否能總結出一個合理的推斷。
廣泛的分佈圖(重點!)
由於種種原因,只有《The Big Guy》可以解釋生活中的許多事情傾向於同一模式發展或者分佈。
最普遍的分佈也有一個合理的名稱——“正態分佈”。是的,無法匹配這一分佈圖的都為非正態,所以有點怪異(需要適當避免)。
正態分佈也稱“高斯分佈”,主要因為“正態”一詞聽起來不夠科學。
正態分佈也稱為“鐘形曲線”(又稱貝爾曲線),因為其曲線呈鐘形。
bell curve(from gamasutra)
鐘形曲線的突出特點是大多數的總體均分佈在平均值周圍,只有個別資料散落在一些極限位置(主要指那些偏高或偏低的資料)。中間成群的資料構成了鐘的外形;而那些偏高資料或偏低資料分佈在鐘的邊緣。
我們周圍有上百萬的不同事例呈現出正態分佈的景象。如果你測量了你所生活的城市中所有人的身高,結果可能呈現正態分佈。這表明,只有少數個體屬於非正常的矮,少數個體屬於姚明那樣的身高,而大多數人會比平均身高多幾英寸或者矮几英寸。
鐘形曲線同樣極典型地適用於調查人們的技能水平。以運動為例——極少部分人在這一領域為專業人士,大多數的人都還過得去,只有少部分的人實在不擅長,所以沒有被選為隊員(比如我)。
其它分佈圖
儘管正態分佈圖很完美,但它並非我們周圍唯一的一種分佈圖。只是它比較普遍地存在。
比如有些其它的分佈圖直接與賭博及遊戲設計有關,只要看下扔骰子的概率分佈圖,這種情況下出現瞭如下的d6情形及2d6情形:
D6 distribution(from gamasutra)
2d6 distribution(from gamasutra)
現在我想說的是第一個分佈圖看起來一點也不像鐘形曲線,而第二幅圖開始呈現出了鐘的形狀。
平均值
這一小塊內容可以說是這篇冗長的文章中的一個小插曲。這塊自我指涉的小內容的存在只有一個目的:提醒你什麼是“平均值”。這塊自我指涉且迂腐的小內容將被動地提醒你平均值是指一整套的數學平均資料。
方差和標準偏差
我們必須理解什麼是方差和標準偏差,並且它們也具有許多有形的價值。除了能夠幫助我們做出有價值的資料總結外,這兩個術語還能夠幫助我們更明智地陳述分佈問題。比起說“中間聚集了大量的資料點”,我們可以換個說法,即“68.2%的樣本是一個平均值的標準偏差”。
sigman(from gamasutra)
方差和標準偏差是相互聯絡的,它們都能夠測量一個元素,即分散資料。直觀地說,較高的方差和標準偏差也就意味著你的資料分散於四處。當我在投擲飛鏢時,我便會獲得一個較高的方差。
我們可以通過任何資料集去估算方差和標準偏差。我本來應該在此列出一個方程式的,但是這似乎將違背“聽起來不像是一本教科書”的規則。所以我這裡不引用公式,而是採用以下描述:
標準偏差:樣本或人口統計的平均數值偏離平均值的程度。由希臘之母σ(sigma)表示。
舉個例子來說吧,你挑選了100個人並測試他們完成你的新遊戲第一個關卡分別用了多長時間。讓我們假設所有資料的平均值是2分鐘30秒而標準偏差則是15秒。這一標準偏差表明遊戲過程中出現了集聚的情況。也就是平均來看,每個遊戲過程是維持在平均值2.5分鐘中的±0.25分鐘內。從中看來這一數值是非常一致的。
這意味著什麼以及為何你如此在乎這一數值?答案很簡單。假設你不是獲得上述結果,而是如下結果:
平均值=2.5分鐘(如上)
σ=90秒=1.5分鐘
所以我們現在擁有相同的平均值以及不同的標準偏差。這套數值表明玩家所用的遊戲時間差別較大。90秒鐘的遊戲時間背離了平均遊戲時間。而因為遊戲時間是2.5分鐘,所以這種偏差過大了!基於各種設計目的,出現這種較大的差值都不是設計師想看到的結果。
而如果我們所說的遊戲時間是15分鐘而標準偏差是90秒(1.5分鐘)的話差別變更大了。
通過一個小小的標準偏差便能夠衡量一致性。標準偏差比率除以平均值便能夠獲得相關數值。就像在第一個例子中,15秒/150秒=10%,而在第二個例子中,90秒/150秒=60%。很明顯,60%的標準偏差真是過大了!
但是並不是說較大的標準偏差“總是”糟糕的。有時候設計師在進行測量時反而希望看到較大的標準偏差。不過大多數情況下還是糟糕的,因為這就意味著數值的差異性和變化性較大。
更重要的是,標準偏差的計算將告訴你更多有關遊戲/機制/關卡等內容。以下便是通過測量標準偏差能夠獲得的有用的資料:
1.玩家玩每個關卡的遊戲時間
2.玩家玩整款遊戲的遊戲時間
3.玩家打敗一個經典的敵人需要經歷幾次戰鬥
4.玩家收集到的貨幣數量(遊戲中有一個義大利水管工)
5.玩家收集到的吊環數量(遊戲中有一個快速奔跑的藍色刺蝟)
6.在教程期間時間控制器出現在螢幕上
誤差
誤差與統計結論具有密切的關係。就像在每一次的蓋洛普民意測驗(遊戲邦注:美國輿論研究所進行的調查專案之一)中也總是會出現誤差,如±2.0%的誤差。因為民意調查總是會使用樣本去估算人口數量,所以不可能達到100%精準。零誤差便意味著結果極其精確。當你所說的人口數量大於你所採取的樣本數量,你便需要考慮到誤差的可能性。
如果你是利用全部人口作為相關資料來源,你便不需要考慮到誤差——因為你已經擁有了所有的資料!就像我問街上的任何一個人是喜歡象棋還是圍棋,我便不需要考慮誤差,因為這些人便是我所報告的全部資料來源。但是如果我想基於這些來自街上行人的資料而對鎮上的每個人的答案做出總結,我便需要估算誤差值了。
你的樣本數量越大,最終出現的誤差值便會越小。Mo data is bettuh(越多資料越好)。
置信區間
你可以使用推論統計為未來資料做出總結。一個非常有效的方法便是估算置信區間。理論上來看,置信區間與標準偏差密切相關,即通過一種數學模式去表示我們多麼確定某一特定資料是位於一個特定範圍內。
置信區間:即通過一種數學方法傳達“我們帶著A%的置信保證B%的資料將處於C和D價值區間。”
雖然這個定義很繞口,但是我們必須知道,只要具有一定的自信,我們便能夠造就任何價值。讓我以之前愉快但卻缺乏滿足感的工作為例:
我過去是從事應力分析和飛機零部件的設計工作。如果你知道,或者說你必須知道,飛機,特別是商業飛機的建造採用的是現代交通工具中最嚴格的一種形式。人們總是會擔心機翼從機身上脫落下來。
作為飛機建造工程師,我們所採取的一種方法便是基於材料優勢屬性設定一個高置信區間。關於飛機設計的傳統置信區間便是“A基值許可”,即我們必須95%地確信裝運任何一種特殊材料都有99%的價值落在一個特定的價值區間內。然後我們將根據這一價值與可能發生的最糟糕的空氣條件進行設計,並最終確立一個最佳安全元素。
當你真正想了解某種資料值時,置信區間便是一種非常有幫助的方法。幸運的是在遊戲中我們並不會扯到生死,但是如果你想要平衡一款主機遊戲,你便需要在設計過程中融入更多情感和直覺。計算置信區間能夠幫助你更清楚地掌握玩家是如何玩你的遊戲,並更好地判斷遊戲設定是否可行。
不管你何時想要計算置信區間,備用統計規則都是有效的:越多資料越好。你的樣本中擁有越多資料點,你的置信區間也就越棒!
你不可能做到100%的肯定
這便引出了另一個統計規則:
並不存在100%之說:你永遠不可能創造一個100%的置信區間。你不可能保證通過推論統計便能夠預測一個資料點具有一個特定的價值。
當玩家在《魔獸世界》中挑戰任務時,唯一可以確定的只有死亡,稅金以及不可能找到最後的Yeti Hide。所以玩家只需要接受這些事實並勇往直前便可。
濫用
我在之前提過,統計是一種邪惡的技能。為了更好地解釋原因,我寫下了這篇彈頭式愛情詩:
十四行詩1325:美好的統計,讓我細數下我濫用你的每種方式:
1.誤解
2.未明確置信區間
3.只因為不喜歡而丟棄了有效的結論
4.基於有缺陷的資料而做出總結
5.體育實況轉播員的失誤——混淆了概率和統計錯誤
6.基於一些不相干元素做出總結
誤解
人們一直在誤解統計報表。我知道,這一點讓人難以置信。
未明確置信區間或誤差
置信區間和誤差是資訊中非常重要的組成部分。在過去30天內有43%的PC擁有者購買了一款可下載的遊戲(誤差為40%)與同樣的陳述但存在2%的誤差具有巨大的差別。而如果遺漏了誤差,便只會出現最糟糕的情況。我們需要始終牢記,小樣本=高誤差。
只因為偏見而丟棄了有效的結論
操作得當的話,統計資料是不會撒謊的。但是人們卻一直在欺騙自己。我們經常在政治領域看到這類情況的出現,人們總是因為結論不符合自己預期的要求而忽視統計資料。在焦點小組中亦是如此。當然了,政治領域中也常常出現濫用統計結論的現象。
基於有缺陷的資料而做出總結
這種情況真是屢見不鮮,特別是在市場調查領域。你的統計結果總是會受到你所獲得的資料的影響。如果你的資料存在缺陷,那麼你所獲得的結果便不會有多少價值。得到有缺陷的資料的原因多種多樣,包括失誤和嚴重的操作問題等。提出含沙射影式問題便是引出能夠支援各種結論(就像你所希望的那樣)的缺陷資料的一種簡單方法。“你比較喜歡產品X,還是糟糕的產品Y?”將快速引出反彈式回答,如“95%的費者會選擇產品X!”
體育實況轉播員的失誤
體育實況轉播員可以說是當今時代的巫醫。他們會收集各種統計,概率以及情感,然後將其混合在一起而創造出一些糟糕的結果。如果你想看一些圍繞著沒有根據的結論的統計,你只要去觀看一款足球比賽便可。
例如一個廣播員會說“A隊在最後5局遊戲中並未阻止B隊的進攻。”這種模糊的結論是關於A隊不大可能阻止B隊的進攻,而不是他們在最後5局遊戲中成功阻攔了B隊。但是你也可以反過來說——也許他們將會這麼做,因為他們之前從未阻擋過任何對手。
但是事實卻在於根本不存在足夠的資訊能夠支援任何一種說法。也許這更多地取決於一種概率。阻擋進攻的機會是否就取決於一方在之前的遊戲中是否這麼做過?它們也許是兩種相互獨立事件,除非彼此間存在著互相影響的因素。
但是這並不是說所有體育運動的結論都存在著缺陷。就像對於棒球來說統計資料便非常重要。有時候統計分析也將影響著球的投射線或者擊球點等元素。
最終還是取決於資料:當你擁有足夠的資料時,你便能夠獲得更好的統計結論。棒球便能夠提供各種資料:每一賽季大約會進行2百多場比賽。但是足球比賽的場次卻相對地少了很多。所以我們最終所獲得的誤差也會較大。但是我並不會說統計對於足球來說一點用處都沒有,只是我們很難去挖掘一些與背景相關的有用資料。
基於一些不相干元素做出總結
人們始終都在誤解統計報表。比起使用對照關係,我們總是更容易推斷出一些並不存在的深層次的關係。我最喜歡的一個例子便是著名的飛行麵條怪物信仰(遊戲邦注:是諷刺性的虛構宗教)的《Open Letter to the Kansas School Board》中的“海盜vs.全球變暖”圖表:
http://www.venganza.org/about/open-letter/
我們是否能夠開始解答問題了?
問題1的答案—-關卡時間
這一問題的答案很簡單:你未能獲得足夠的資訊去估算平均值。因為在1:24與2:32範圍中波動的價值並不意味著它們的平均值就是2分鐘。(單看這兩個數值的平均值是1.97分鐘,但是我們卻不能忽視其它18個結果!)你必須掌握了所有的20個結果才能估算平均值,除此之外你還需要估算標準偏差值。
問題2的答案—-後續關卡時間
這時候你可能不會感到滿足,因為標準偏差值過高了,超過平均值的40%。如此看來你的關卡中存在著過多變數。同時這裡也存在著一些可利用的潛在元素,並且技能型玩家能夠發揮其優勢而造福自己。或者,你也可以嚴厲懲罰那些缺少技能的玩家。而作為遊戲設計師,你最終需要做的便是判斷這些結果(居於高度變數)是否符合預期要求。
問題2的答案—-標準偏差值
統計只是你所採用的一種方法,你同時還需要懂得如何進行遊戲設計。如此,過於接近的計數分組使得我們總是能夠獲得一個較低的標準偏差值(500/52000=1%),這就意味著你所獲得的分數幾乎沒有任何差別,也就是說在最終遊戲結果中玩家的不同技能並不會起到任何影響作用。而當玩家發現自己技能的提高並不會影響遊戲分數的發展時,便會選擇退出遊戲。
所以在這種情況下你更希望看到較高的標準偏差,如此遊戲分數才能隨著技能的提高而提高。
問題3的答案—-遊戲時間
可以說這是一個很難獲取的數值,不過它卻說明了資料收集中的一個要點:你需要警惕那些看起來是錯誤的資料。就像0.2小時看起來就有問題。也許這是排印錯誤,或者是裝置故障所造成的,誰知道呢。但是不管怎樣在進行各種計算之前你都需要堅定不移地說服自己0.2小時是一個有效資料,或者你也可以選擇將其丟棄而基於剩下的資料點進行估算。
其它有趣的內容
為了控制本文篇幅,我不得不略過許多有趣的主題。我只要在此強調理解統計不僅能夠幫助你更好地進行遊戲設計,同時也能夠幫助你做出消費者決策,投票決策或者財政決策等。我敢下23.4%的賭注保證我所說的內容中至少有40%的內容是正確的。
對於設計師而言,統計能夠幫助他們獲取來自有記錄的遊戲過程(樣本)的相關資料,並幫助他們為更大的未記錄的遊戲過程(人口統計)做出總結。
在實踐中學習
例如在我剛完成的遊戲中,我便是通過記錄遊戲過程的相關資料,並圍繞著源自這些資料的平均值和標準偏差去設定遊戲挑戰關卡。我們將中等難度等同於平均值,較容易的等同於平均值減去一定量的標準偏差,而較困難的等同於平均值加上一定量的標準偏差。如果我們能夠收集到儘可能多的資料,我們的統計便會越精準。
就像概率論一樣,當你的專案範圍變得越來越大時,統計也會變得越來越有幫助。很多時候你可以通過自己的方法進行摸索,而無需使用任何形式理論。但是隨著遊戲變大,使用者群體的壯大以及預算的擴大,你便需要做好面對一個不平衡,且完全憑直覺的遊戲設計中存在固有缺陷的準備。
你需要牢記的是,統計和概率都不可能為你進行遊戲設計,它們最多隻能起到輔助作用!
遊戲邦注:原文發表於2007年1月24日,所涉事件和資料均以當時為準。
via:遊戲邦/gamerboom