世界盃要來了,AI預測冠軍哪家強?

AI前線發表於2018-06-13
世界盃要來了,AI預測冠軍哪家強?
編譯 | Debra
編輯 | Natalie
AI 前線導讀:2002、2006、2010、2014 年的冠軍得主分別為巴西、義大利、西班牙和德國,基本上遵循了“風水輪流轉”的規律。現在,每年世界盃上演之前,資料科學家、投行和 AI 研究機構都會出來做一下預測。相比於當年風頭大盛但短命的章魚保羅來說,現在的專家和機構預測世界盃用上了機器學習、大資料等方法,理論上來說預測結果會更加有準頭。但是,事實上真是這樣嗎?

更多優質內容請關注微信公眾號“AI 前線”,(ID:ai-front)
不同方法得出結果不同:德國 vs 巴西

和往年一樣,大家預測的冠軍不盡相同,但目前爭論的焦點集中在德國和巴西誰會奪冠上。

據媒體報導,幾天前俄羅斯彼爾姆國立研究大學的大四學生製造的神經網路,預測 德國隊將在 2018 年世界盃中奪冠,而世界盃前三名將是德國隊、巴西隊和阿根廷隊。據說,這項預測的準確度超過 80%。

而瑞銀則由一支 18 名分析師和編輯組成分析師團隊,運用計量經濟學,在衡量了球隊實力,資格記錄和往年世界盃表現等因素後,對比賽進行了 10000 次計算機模擬,預測了比賽的可能勝者。根據其 5 月 17 日釋出的報告,瑞銀預測今年世界盃冠軍將花落德國,獲勝可能性為 24%,其次是巴西 19.8%,西班牙 16.1%,而常年失利的英格蘭以 8.5%的成績排名第四,法國、比利時和阿根廷也被視為黑馬

世界盃要來了,AI預測冠軍哪家強?

搞笑的是,瑞銀全球財富管理部門首席投資官 Mark Haefele 仍然堅持認為英國有成為冠軍的潛力。2014 年世界盃,瑞銀的預測團隊中因為有英國隊鐵桿球迷的存在,把資料分析結果排名第十的英國隊硬生生拗成了冠軍。看來真的是英國隊的死忠粉啊。

然而,也有人用機器學習得出截然相反的預測結果——巴西將贏得冠軍。肯亞投資銀行 Genghis Capital Investment Bank 的投資銀行分析師 Gerald Muriuki,日前在 Medium 上公佈了他使用機器學習預測 FIFA 2018 的結果。

邏輯迴歸方法

Muriuki 使用邏輯迴歸的方法,利用兩個 Kaggle 資料集(https://www.kaggle.com/martj42/international-football-results-from-1872-to-2017/data ),以及 1930 年以來所有的參賽隊伍的賽事資料結果,來進行賽事預測。

環境和工具:jupyter notebook、numpy、pandas、seaborn、matplotlib 和 scikit-learn。

首先,將需要的庫和資料載入至資料框。

世界盃要來了,AI預測冠軍哪家強?

經過載入庫、資料集、探索分析和特徵工程、範圍縮小至參加世界盃的球賽、建立資料框部署模型等步驟之後,這個模型就可以進行預測了。

這是小組賽的部分預測結果

世界盃要來了,AI預測冠軍哪家強?

世界盃要來了,AI預測冠軍哪家強?

世界盃要來了,AI預測冠軍哪家強?

世界盃要來了,AI預測冠軍哪家強?

這是 16 強的預測結果

世界盃要來了,AI預測冠軍哪家強?

它還對四分之一決賽進行了預測

世界盃要來了,AI預測冠軍哪家強?

半決賽預測:

世界盃要來了,AI預測冠軍哪家強?

總決賽預測:巴西戰勝德國

世界盃要來了,AI預測冠軍哪家強?

但 Muriuki 坦誠這個模型還有改進的空間,如通過評測球隊隊員素質提高資料質量、用混淆矩陣分析模型預測問題所在,或者使用多個模型提高準確率。

統計學方法

KDnuggets 上一位球迷借鑑了 FiveThirtyEight 預測 2014 年世界盃的方法(https://fivethirtyeight.com/features/how-fivethirtyeights-world-cup-predictions-compare-to-other-ratings/ ),通過統計學得出了相反的預測結果:德國戰勝巴西

  • FIFA 世界排名(https://www.fifa.com/fifa-world-ranking/ranking-table/men/index.html ):所有 211 支國家足球隊的排名系統,得分基於 FIFA 認證過的所有國際賽事成績。這不是最好的系統,但已經夠用了。

  • Elo 排名:由 Dr. Arpad Elo 建立,原為 FIDE 國際象棋比賽而設計。這個複雜的矩陣基於比賽型別計分,並考慮到雙方的目標分數差距,與 FIFA 的最大不同在於它考慮了友好比賽。

  • TransferMarkt 球隊價值:這個總部位於德國的網站提供關於足球的所有資訊,包括每個知名球員的價值,並列出了參賽國家球隊及其價值。據該網站估計,所有在列表中的球隊總價值約 106.4 億歐元。

  • 投注賠率:使用投注比較網站 OddsChecker,採用每個國家最大賠率。

收集完這些資訊之後,該球迷進行了預測:

世界盃要來了,AI預測冠軍哪家強?

四種方法預測 2018 世界盃結果

世界盃要來了,AI預測冠軍哪家強?

KDnuggets 預測結果

如果 KDnuggets 的預測準確,以下就是本屆世界盃賽程的最終結果:德國、巴西、西班牙分別為前三名。

世界盃要來了,AI預測冠軍哪家強?

人肉預測

英國《電訊報》進行的一項調查顯示,大多數人還是看好德國贏得冠軍。

世界盃要來了,AI預測冠軍哪家強?

Sporting life 沒有預測誰會贏得冠軍,但猜測了一把參賽國家隊將在什麼時候 out,比如認為英格蘭會在四分之一決賽被淘汰。

機器學習、大資料... 預測有準頭嗎?

不管是用了什麼方法,看起來多麼複雜,預測結果準不準還得另當別論。因為事實證明,很多看起來靠譜、頭頭是道的預測結果往往抓瞎得很。比如華爾街最靠譜的高盛,預測 2014 年世界盃時便被啪啪打臉。當時高盛由大名鼎鼎高盛經濟學家凱文·戴利(Kevin Daly)帶領的量化分析師團隊建立了自 1960 年以來正式國際足球比賽資料的模型,對其進行迴歸分析,通過一個叫“elo”的動態模擬系統“擲骰子”分析賽果,同時根據泊松模型(一種概率模型,用於預測進球而非預測勝負)預測小組賽的比分。結果呢,八強預測錯了三個(哥斯大黎加、比利時和哥倫比亞),四強錯了一個(西班牙),小組賽的賽果正確率只有 37.5%,還鐵定押寶巴西會奪冠,讓人哭笑不得。

彭博社的方法與高盛類似,是在各國國家隊 FIFA 積分的基礎上,模擬了 1 萬次比賽結果,結果也與高盛類似,認為西班牙會在和阿根廷打平後點球進入決賽,最終輸給巴西。然而尷尬了,西班牙早就在之前的比賽中已經 out 了......

德銀的模型更離譜,它的模型據說綜合了 FIFA 排名、歷史戰績、球員構成和賭球賠率等因素,算出的奪冠概率前四名是巴西、德國、西班牙、法國,但是德銀的分析師在建立模型時,綜合了一個據說是“歷史奪冠輪迴”的理論,最終,他們計算出的結果是巴西無緣 8 強,而英格蘭將奪冠。然而,英格蘭也早早打鋪蓋回家了......

一眾大佬在 2014 年世界盃預測中被無情打臉,然而,百度的預測卻出乎意料地相對準確。據說,當時這家公司的資料科學家團隊搜尋了距當時 5 年內全世界 987 支球隊(含國家隊和俱樂部隊)的 3.7 萬場比賽資料,同時與中國彩票網站樂彩網、歐洲必髮指數資料供應商 Spdex 進行資料合作,匯入博彩市場的預測資料,建立了一個囊括 199972 名球員和 1.12 億條資料的預測模型,並在此基礎上進行結果預測。在大多數人預測巴西將奪冠的情況下,仍然堅持德國將勝出。結果巴西意外爆冷,獎盃被德國拿走。

根據以上分析來看,今年無論是機器學習還是大資料的方法,或多或少都借鑑了以往所使用過的方法,2014 年世界盃預測的結果大家也有目共睹。所以說,世界盃冠軍到底將花落誰家將受到很多因素的影響,比如天氣、球員狀態、場地情況、任何意外事故,等等,如果真能料事如神,賭球的網站早就關門大吉了。而這也是世界盃的魅力和球迷為之瘋狂的原因所在,不到最後一刻,誰也不知道會不會發生驚天逆轉。

安靜吃瓜看球的諸位球友們,你最看好哪支隊伍奪冠呢?

參考連結:

https://www.kdnuggets.com/2018/06/football-world-cup-predictions.html

https://medium.com/@itsmuriuki/predicting-fifa-world-cup-2018-using-machine-learning-dc07ad8dd576


相關文章