更多優質內容請關注微信公眾號“AI 前線”,(ID:ai-front)
和往年一樣,大家預測的冠軍不盡相同,但目前爭論的焦點集中在德國和巴西誰會奪冠上。
據媒體報導,幾天前俄羅斯彼爾姆國立研究大學的大四學生製造的神經網路,預測 德國隊將在 2018 年世界盃中奪冠,而世界盃前三名將是德國隊、巴西隊和阿根廷隊。據說,這項預測的準確度超過 80%。
而瑞銀則由一支 18 名分析師和編輯組成分析師團隊,運用計量經濟學,在衡量了球隊實力,資格記錄和往年世界盃表現等因素後,對比賽進行了 10000 次計算機模擬,預測了比賽的可能勝者。根據其 5 月 17 日釋出的報告,瑞銀預測今年世界盃冠軍將花落德國,獲勝可能性為 24%,其次是巴西 19.8%,西班牙 16.1%,而常年失利的英格蘭以 8.5%的成績排名第四,法國、比利時和阿根廷也被視為黑馬。
搞笑的是,瑞銀全球財富管理部門首席投資官 Mark Haefele 仍然堅持認為英國有成為冠軍的潛力。2014 年世界盃,瑞銀的預測團隊中因為有英國隊鐵桿球迷的存在,把資料分析結果排名第十的英國隊硬生生拗成了冠軍。看來真的是英國隊的死忠粉啊。
然而,也有人用機器學習得出截然相反的預測結果——巴西將贏得冠軍。肯亞投資銀行 Genghis Capital Investment Bank 的投資銀行分析師 Gerald Muriuki,日前在 Medium 上公佈了他使用機器學習預測 FIFA 2018 的結果。
Muriuki 使用邏輯迴歸的方法,利用兩個 Kaggle 資料集(https://www.kaggle.com/martj42/international-football-results-from-1872-to-2017/data ),以及 1930 年以來所有的參賽隊伍的賽事資料結果,來進行賽事預測。
環境和工具:jupyter notebook、numpy、pandas、seaborn、matplotlib 和 scikit-learn。
首先,將需要的庫和資料載入至資料框。
經過載入庫、資料集、探索分析和特徵工程、範圍縮小至參加世界盃的球賽、建立資料框部署模型等步驟之後,這個模型就可以進行預測了。
這是小組賽的部分預測結果:
這是 16 強的預測結果:
它還對四分之一決賽進行了預測:
半決賽預測:
總決賽預測:巴西戰勝德國
但 Muriuki 坦誠這個模型還有改進的空間,如通過評測球隊隊員素質提高資料質量、用混淆矩陣分析模型預測問題所在,或者使用多個模型提高準確率。
KDnuggets 上一位球迷借鑑了 FiveThirtyEight 預測 2014 年世界盃的方法(https://fivethirtyeight.com/features/how-fivethirtyeights-world-cup-predictions-compare-to-other-ratings/ ),通過統計學得出了相反的預測結果:德國戰勝巴西。
FIFA 世界排名(https://www.fifa.com/fifa-world-ranking/ranking-table/men/index.html ):所有 211 支國家足球隊的排名系統,得分基於 FIFA 認證過的所有國際賽事成績。這不是最好的系統,但已經夠用了。
Elo 排名:由 Dr. Arpad Elo 建立,原為 FIDE 國際象棋比賽而設計。這個複雜的矩陣基於比賽型別計分,並考慮到雙方的目標分數差距,與 FIFA 的最大不同在於它考慮了友好比賽。
TransferMarkt 球隊價值:這個總部位於德國的網站提供關於足球的所有資訊,包括每個知名球員的價值,並列出了參賽國家球隊及其價值。據該網站估計,所有在列表中的球隊總價值約 106.4 億歐元。
投注賠率:使用投注比較網站 OddsChecker,採用每個國家最大賠率。
收集完這些資訊之後,該球迷進行了預測:
四種方法預測 2018 世界盃結果
KDnuggets 預測結果
如果 KDnuggets 的預測準確,以下就是本屆世界盃賽程的最終結果:德國、巴西、西班牙分別為前三名。
英國《電訊報》進行的一項調查顯示,大多數人還是看好德國贏得冠軍。
Sporting life 沒有預測誰會贏得冠軍,但猜測了一把參賽國家隊將在什麼時候 out,比如認為英格蘭會在四分之一決賽被淘汰。
不管是用了什麼方法,看起來多麼複雜,預測結果準不準還得另當別論。因為事實證明,很多看起來靠譜、頭頭是道的預測結果往往抓瞎得很。比如華爾街最靠譜的高盛,預測 2014 年世界盃時便被啪啪打臉。當時高盛由大名鼎鼎高盛經濟學家凱文·戴利(Kevin Daly)帶領的量化分析師團隊建立了自 1960 年以來正式國際足球比賽資料的模型,對其進行迴歸分析,通過一個叫“elo”的動態模擬系統“擲骰子”分析賽果,同時根據泊松模型(一種概率模型,用於預測進球而非預測勝負)預測小組賽的比分。結果呢,八強預測錯了三個(哥斯大黎加、比利時和哥倫比亞),四強錯了一個(西班牙),小組賽的賽果正確率只有 37.5%,還鐵定押寶巴西會奪冠,讓人哭笑不得。
彭博社的方法與高盛類似,是在各國國家隊 FIFA 積分的基礎上,模擬了 1 萬次比賽結果,結果也與高盛類似,認為西班牙會在和阿根廷打平後點球進入決賽,最終輸給巴西。然而尷尬了,西班牙早就在之前的比賽中已經 out 了......
德銀的模型更離譜,它的模型據說綜合了 FIFA 排名、歷史戰績、球員構成和賭球賠率等因素,算出的奪冠概率前四名是巴西、德國、西班牙、法國,但是德銀的分析師在建立模型時,綜合了一個據說是“歷史奪冠輪迴”的理論,最終,他們計算出的結果是巴西無緣 8 強,而英格蘭將奪冠。然而,英格蘭也早早打鋪蓋回家了......
一眾大佬在 2014 年世界盃預測中被無情打臉,然而,百度的預測卻出乎意料地相對準確。據說,當時這家公司的資料科學家團隊搜尋了距當時 5 年內全世界 987 支球隊(含國家隊和俱樂部隊)的 3.7 萬場比賽資料,同時與中國彩票網站樂彩網、歐洲必髮指數資料供應商 Spdex 進行資料合作,匯入博彩市場的預測資料,建立了一個囊括 199972 名球員和 1.12 億條資料的預測模型,並在此基礎上進行結果預測。在大多數人預測巴西將奪冠的情況下,仍然堅持德國將勝出。結果巴西意外爆冷,獎盃被德國拿走。
根據以上分析來看,今年無論是機器學習還是大資料的方法,或多或少都借鑑了以往所使用過的方法,2014 年世界盃預測的結果大家也有目共睹。所以說,世界盃冠軍到底將花落誰家將受到很多因素的影響,比如天氣、球員狀態、場地情況、任何意外事故,等等,如果真能料事如神,賭球的網站早就關門大吉了。而這也是世界盃的魅力和球迷為之瘋狂的原因所在,不到最後一刻,誰也不知道會不會發生驚天逆轉。
安靜吃瓜看球的諸位球友們,你最看好哪支隊伍奪冠呢?
參考連結:
https://www.kdnuggets.com/2018/06/football-world-cup-predictions.html
https://medium.com/@itsmuriuki/predicting-fifa-world-cup-2018-using-machine-learning-dc07ad8dd576