hp1

資料籃球

如今NBA的可測資料已經浩如瀚海,球員在場上的每一個細小的動作都能深化你對其價值的理解。讓我們一起進入大資料時代。

 
                                                                                                                    作者:KIRK GOLDSBERRY

在2013年2月13號那天,聖安東尼奧馬刺隊做客克利夫蘭迎戰騎士隊,整場比賽都打得十分焦灼。直到第四節最後時刻,騎士的新秀得分後衛迪昂-韋特斯命中了他菜鳥賽季最大心臟的一球,一記高難度跳投,力助球隊在最後9.5秒取得了2分的領先優勢。但問題是,他留給了馬刺9.5秒的時間,觀眾們都已經嗅到了翻盤的味道,速貸中心那些騎士球迷的情緒甚至都開始失控。

馬刺隊叫了暫停,獲得了一次前場球的機會,他們決定打一個他們最喜歡的戰術。馬特-邦納快速把球發給了距籃筐30尺遠的託尼-帕克,待鄧肯做了個結結實實的擋拆,迫使泰勒-澤勒換防帕克,帕克抓住這一時機迅速從左側突破。比賽還剩下6.7秒,帕克控制了下平衡,準備來一個他命中率最高的上籃來扳平比分。霎時間,他看到了什麼,然後改變了他的主意。

科懷-倫納德安靜的待在弱側底角,沒有人注意到他。因為帕克突的十分堅決,侵略性十足,他的突破成功吸引了倫納德的防守者——韋特斯,他一直被吸引到了禁區。而倫納德就靜靜的杵在那塊無人區,帕克很快也注意到了這點,於是帕克手腕一甩,送出了一記精準的助攻,那球沿著底線直直的飛向了倫納德,韋特斯絕望的撲上去也只是徒勞。剩下的就是例行公事,那個時候,這個漂亮的助攻已經完成,倫納德只需要在他最喜歡的位置投中最喜歡的那個底角三分。他投進了,而馬刺也以一分的優勢帶走了勝利。

hp2

資料統計上把這個漂亮的戰術簡化為了幾個基本的數字:馬刺2號球員科懷-倫納德增加1次出手,1次命中,添上3分。蒂姆-背景帝-鄧肯的擋人沒有任何記錄,而帕克犀利的繞掩護突破和精彩的傳球最終僅被記上一筆助攻。

事後,帕克提到了比賽最後的那個戰術:“我想我本可以命中那個上籃,但我看到了空位的科懷。我不只是要拿下一場勝利,我還要組織好我的隊友們,讓他們能整晚出色的發揮,所以在最後時刻我願意做一個正確的決定。”

研究小組的建立

在2012年MIT Sloan Sports分析大會之後不久,我收到了布萊恩-庫普的來電,他是NBA球員追蹤資料界的聖約翰,同時也是芝加哥SportVU公司STATS LLC專案的負責人。我那會兒在哈佛大學工作,庫普給我分享了他那非凡卓絕的學術成果——籃球資料集;他問我是否也想“玩一些光學追蹤資料”。我錯過了這次機會,因為我完全不知道我到底要去做什麼。

那次電話後又過了幾個星期,我才第一次看到那個專案的基礎資料,這是由許多,甚至可以永遠的改變籃球分析方式的資料組成的;這絕對是一個“超神(Holy shit!)”的時刻。那個時候我正在用一塊巨大的27寸的蘋果電腦,可當我雙擊那個SportVU的第一個檔案時,資料還是立刻佔滿了整個螢幕。我所看見的就是一片小數點和跟蹤資料組成的浩瀚海洋和數百個穿插其中的XML標籤。馬上我就意識到,這顯然是我見過的最“大”的資料。我永遠都忘不了當螢幕裡被跟蹤球員從一節到一場比賽的跟蹤資料跳躍在我眼前的時候我有多驚訝。我有幾千個這樣的檔案,我想我需要找點幫助。

我找到了盧克-伯恩,一個年輕的空間統計學教授,我告訴了他我的窘境。盧克建議我們在學校裡面組建一個研究小組,利用這些資料來建立專案。這個小組很快就吸引了4個研究資料統計和計算機的博士生。到了2013年初的時候,每個學生都建立了不同的專案。我們把這些專案稱為“XY Hoops”。

丹-瑟沃尼和艾利克斯-德阿莫爾是我們最早的兩個成員。這兩個同學都是27歲的四年博士生,在哈佛學習統計領域課程,他們都喜歡運動,但他們更喜歡資料的編碼。在看過這堆資料之後,我們很快進行了一些頭腦風暴,然後他們就加入了我們小組並提出了一個聽起來革命性的,幾乎不可能的點子。

先行者的窘境

一般我們都追求最好的分析裝置,但先驅者們往往不可避免一個問題,那就是沒有最好的分析裝置。解釋生命的度量標準只有一個,但你卻找不出一個能解釋籃球的度量標準。在當代的運動資料分析界,你很難不去非恰當的提升這個“大資料”的角色,但要使他們理想化傳奇化卻是很冒險的。資料必須要簡化為一種中介形式才能將球員的賽場表現和統計分析聯合起來,而運動分析則構建於龐大的編碼解碼機制之上,這一機制的前提卻是一個有缺陷的假設——“資料可以代表運動”。

但目前的現實情況卻是——NBA新任總裁亞當-蕭華在2014年為每座球館都裝上了攝像機來測量每個球員的每個動作。這些懸掛在球館頂部的跟蹤攝影機生成了數千兆的資料資料,這些資料對於錄影師和訓練師來說就是潛在的至關重要的情報資訊。而我們的新瓶頸並不是來自於資料,更多的是由於缺少人力資源,我們的分析師總會過度勞累,他們缺乏硬體軟體上的支援,缺乏專業培訓,但自專案建立以來最困難的則是——怎樣去執行這些新生成的任務。

儘管如此,由一群聰明卓越,裝置精良的統計員掌管負責,SportVU的資料實實在在是令人驚訝,它潛在的海量資訊將會幫助我們對我們所愛的這個聯盟有一個更好的理解。用庫普的話來說“我們只是做了一些基礎的資料研究,而讓這些資料轉化為先進的分析依據和方法還要花很多的時間和精力。”NBA的大資料時代才剛開始,人們還是傾向於一個漂亮的扣籃,這能振奮球隊,球員,取悅媒體,更重要的是,能讓球迷感到興奮。我們不能保證這些,但引用帕克的話,我們只是要確保我們“最終做了正確的決定”。

為什麼要進行革新

託尼-帕克是世界上最好的進攻創造者(Playmaker)之一。十多年以來,他一直都在推動著馬刺,啟用了他們嚴謹呆板的進攻。儘管他已經拿下了3座總冠軍和一座總決賽MVP注1,帕克還是一直被低估,被認為不是一個真正的超級巨星。今年又是如此,帕克再次成為全明星替補,在他前面的是小有所成的天才投手。也許這是因為他是一個外國人,也許,這是因為他打球的位置地處德州中心,市場較小。

注1:更不用說去年帕克差點就能拿到他的第四座總冠軍和第二個總決賽MVP。

但也許,這是因為我們的資料統計低估了帕克這類球員在場上所做的一些“細節”,卻高估了那些最容易量化的數字——比如得分,比如籃板,比如助攻。

一方面,我們不能否認倫納德在克利夫蘭那記三分絕殺的重要性,畢竟,他才是那個投中關鍵球的人;但是另一方面,把掌聲都送給倫納德就如同把《地心引力》的讚譽歸功於喬治-克魯尼一樣。

“那種球我們練了1000多次,因此我知道我們能夠去執行它。”聖安東尼奧主教練格雷格-波波維奇在賽後說道。

如果我們將這種傳統的籃球(統計)比喻成下棋,你就會發現,我們過於看重每一步的移動,卻忽略了總體大局上那些移動所關係的相關戰略佈置。下棋的輸贏往往不是最後的那一步,同樣地,籃球的每一次球權也是如此。最後的出手並不代表什麼,像帕克和保羅這樣的球員,他們能從各方各面幫助球隊贏得有利位置。

在大資料時代,目前的統計系統——也就是我們的資料表——是一種純輸入機制,是的,這個挺直觀可靠的。但這是當年簡單地由鉛筆和紙記錄資料的產物,它無法真實衡量場上10名球員的作用和貢獻。誠然,資料表到現在都挺實用,不然它不可能從比爾-拉塞爾時期到邁克爾-喬丹歲月甚至沿用至勒布朗-詹姆斯時代。它所衍生出來的理論定義已轉化為我們所說的“先進資料”和“籃球分析”。

過去數十年中,像肯-波默羅伊,迪恩-奧利弗和約翰-火靈哥這樣的先驅者將籃球的資料分析引入了計算機時代。他們有效的利用了電子表格和其他新式計算機時代特有的計算公式和分析方法。我們要藉助他們的理論思想繼續學習,因為這些東西的革新還在繼續。

理念,定義及演示

2013年春季學期的早些時候,瑟沃尼和德阿莫爾打算建立一個新的專案來測量NBA裡的效能值(performance value)。他們提出這個想法的動機非常簡單,但實現他們這個假設估算所需要的付出卻不盡然。他們的核心假設是:

每次籃球球權的“狀態(state)”都有一個值。這個值由一個即成籃球事件的概率決定,其結果為該次球權的總預期得分。NBA每次球權得分的平均值接近為1分,其預期得分的準確值又隨著時刻的改變而波動,而這些波動的原因就是場上瞬息萬變的各種突發事件。

不僅如此,他們還深信一點,利用SportVU資料所帶來的啟發,我們可以——史上第一次——做到估計整個賽季中每一剎那每一時刻的效能值。他們提議我們是否可以建立一個取樣模型,這個模型要考慮到這些關鍵因素——比如球員的場上座標位置,他們各自的得分能力,持球人是誰,他持球狀態的趨勢,以及他在場上的位置(1-5號位)。然後,我們就可以以一種全新的方式來對NBA的效能值進行量化分析。

換句話說,假如你在任意時刻暫停了任一場NBA比賽。瑟沃尼和德阿莫爾的中心思想是:無論你在任意時刻暫停比賽,你都能夠科學的估計該次球權的“預期球權得分(expected possession value)”,或者簡稱“預球權分(EPV)”。

打個比方,假如勒布朗-詹姆斯在籃下持球,且完全無人盯防。我們就能猜到這兩分他是拿定了。那麼這一時刻的預球權分就無限接近於2。相反,假設德懷特-霍華德持球距籃筐40尺遠,且比賽時間只剩下1秒,且有三人對他貼身防守。我們大致也能猜到這球怕是進不了了。那麼這一時刻的預球權分就無限接近於0。當然,場上的各種情況不至於這麼極端,但它們還是能通過預球權分機制來評估出來。

這只是一個新式的概念,而真正的“奇思妙想”就從這裡開始。

如果我們能估計任意比賽的任意時刻的預球權分,那我們將能以一種更為複雜精細的方式對球員的表現進行量化。我們可以為這個“值”引入這些概念,比如無人防守,持球突破以及遭遇雙人包夾的影響。我們可以更精確的量化球員的動作,針對特定球隊特定球員的擋拆戰術,到底哪一種防擋擋拆策略才是最好。通過提取和分析比賽的基本動作,比如單獨解析每一種戰術的每一個細節,我們就可以得出哪一種戰術的哪一個細節最為有效,同樣,我們還能得出哪個球員才是最好的執行者。

但預球權分最為清楚明確的應用還是量化球員的總體進攻得分值,我們可以考量他持球時的表現,任何細枝末節的動作,無論是一場比賽,一次客場之旅還是整個賽季。我們可以利用預球權分概念將數千個動作轉化為一個簡單的值,再通過對比他和假想的替換球員(比如一個聯盟平均水平的球員)的真實值來判斷他能多得多少分,方法是將該假想球員人工放入一個與該球員完全相同的籃球狀況之中注2。這個值則稱為“預球權分增加(EPV-added)”或者“得分增加(points added)”。

注2:偉大的基斯-烏爾內,前棒球統計界掌門人,他曾提出Value Over Replacement Player (VORP),即與替換球員得分的差值,這與之類似但又有所不同。

我們再回到帕克-倫納德的那個絕殺球,這次我們通過預球權分的視角來觀察這一過程。這球的初始條件為:騎士領先2分,比賽還剩9秒時間。帕克接球啟動了這一系列動作,模型預計該次球權的期望得分為0.97分。

鄧肯給帕克做了一個擋拆,讓帕克有充足的空間來突破澤勒,此時預球權分實際上正在降低,因為帕克正在中距離持球突破澤勒。隨著帕克殺到籃下區域,預球權分也增加至1.36分,帕克的突破已經使得本次預球權分增長了0.39分——但他還沒有結束進攻。他發現了底角的倫納德並送出一記不可思議的助攻,這個動作使預球權分再次增加。考慮到倫納德的空位以及他在底角出色的手感,帕克本次助攻實際上使球隊的預球權分達到了1.75的峰值。此後,由於韋特斯的撲防,預球權分降到了1.58,可惜韋特斯回防的時候已經太晚了。

下列分鏡為截圖,強烈建議大家去原網站看看光學追蹤的力量。點選這裡(需要翻牆)。

hp3

此時比賽還剩下9.2秒,而馬刺落後騎士兩分(都是影響因素)。帕克(弧頂)剛剛接到馬特-邦納的傳球,這時候,他試圖打一個戰術來追平或是反超比分。這個時刻的預球權分接近於1。

hp4

邦納發球給帕克後立刻跑到了三分線外,同時,鄧肯給帕克做了一個擋拆擋住了利文斯頓,迫使泰勒-澤勒換防帕克,此時帕克位於三分線內一步且有人盯防,其預球權分也降到了0.86。

hp5

帕克迅速突破,他進入了禁區,且防守人被他甩在身後,此時,隨著帕克距離籃筐越來越近,預球權分也達到了1.36。


hp6

此時帕克注意到了位於弱側底角空位的倫納德,他迅速將球傳了出去,由於無人干擾本次傳球,而倫納德在這個區域命中率非常高,且無人防守,你可以看到預球權分直線上升到了1.75。
hp7

你可以看到預球權分略有下滑,那是因為迪昂-韋特斯趕過去封蓋了,可惜此時為時已晚,影響微乎其微,他撲上去時其預球權分還是高達1.58。值得一提的是,此時距離比賽結束還有不到4.5秒的時間,你可以看到鄧肯和邦納已經來到禁區準備搶板,而騎士的球員很好的擋住了他們,但他們漏掉了三分線外的加里-尼爾以及在界外看戲的託尼-帕克。

在這次進攻中衡量預球權分之變動的方法有很多,但最簡單的方法是針對本次球權的個人進行比較。通過這個方法,從初始階段的持球開始(0.97)到最後傳給底角的倫納德為止(1.75),帕克的一系列動作為本次進攻贏得了+0.78分。

在這個平行世界裡,沒有我們傳統的統計資料,只有預球權分,帕克終於在這次進攻中得到了一個可觀的數字榮譽。而通過傳統的“得分,籃板和助攻”資料,倫納德是最終的贏家。各大網站的標題都是“科懷-倫納德三分球絕殺騎士!”。

模型來源與基礎

瑟沃尼和德阿莫爾去年開始建立了這個測量預球權分的模型。這個模型的原型是他們的“競爭風險模型”,該模型主要是運用生存分析(survival analysis)來鑑定多重死亡風險(multiple risks of death)和風險對時間的改變,瑟沃尼從中發現了適用於籃球領域的機會。他將“人類壽命的持續時間”變為“NBA的球權”,再將“造成死亡的多種因素”變為“球場上的各種事件”。

這種獨特的籃球分析方法將成為這個月底在波士頓召開的“2014 MIT Sloan Sports 分析大會”上的主要討論課題

“我替換掉了‘死亡’,”瑟沃尼解釋道“我們正在將‘風險’應用為球場上不同時間各種突發事件的概率。”他在一篇論文中提到,每場比賽的每個瞬間的模型評估都有兩個關鍵值:

根據定義,每次球權的當前時刻預球權分是該情況下未來所有進攻選擇其可能結果的加權平均值。計算該值需要一個能在給定的球員在場上的空間位置條件下,計算持球者下一步趨勢的概率分佈模型,我們以此來理解該次球權的發展趨勢以及由它們當前狀態所決定的發展可能性。我們把這個模型稱為“球權模型”。根據馬爾科夫猜想(他讓概率論重新恢復為一門學科,學過概率論的都應該感謝他),球權模型讓我們能夠估計:(a)在特定情況下,特定球員將要做出相應決定的概率分佈,以及(b)球員做出決定之後的預球權分的值。綜合起來,我們就能知道一次球權在任意時刻的預球權分值,以及生成該值的攻方配置特性。

再舉個例子,以下根據是上賽季馬刺對雷霆的一場比賽建立的球權模型,我們來評估相應關鍵值。科懷-倫納德在弧頂持球,模型分析了倫納德的下一步進攻趨勢,而預球權分的改變結果將在他做出特定動作後得出。

hp8

如果你問瑟沃尼這個專案最難的是哪個部分,他一定會毫不猶豫的指出——計算。他的答案對於這個朝著大資料時代的猛衝的各種資料分析方法都很有意義。說個資料,僅2012-13賽季,用於瑟沃尼論文裡的SportVU資料就包括了8億個球員位置座標。別忘了,這個資料僅僅是從14個場館中記錄得到的——而如今,每個場館都在記錄資料。光這個專案資料庫裡的資料就達到了93GB。

為了從這個龐大的資料庫中提取模型所需的資料,瑟沃尼和德阿莫爾啟用了哈佛大學的超級計算機——奧德賽。而這臺超級計算機還是花了超過500臺電腦的馬力以及2TB的儲存空間才完成了這項分析。

相較過去幾十年那些基本的加減乘除和簡單的資料,這種新式分析是非常非常非常具有挑戰性的,無論你從人力考慮還是從計算機效能方面考慮。NBA中有多少人知道什麼是競爭風險模型?有多少NBA球隊擁有這種超級計算機?又有多少人會操作超級計算機?我知道答案不一定是0,但一定無限接近於0。

實際應用

在2012-13賽季裡,克里斯-保羅有著所有球員當中最高的“得分增加(points added)”,場均高達3.48分。這就是為什麼,為什麼聯盟中那麼多人把他稱為NBA最好的控球后衛。帕克的排名同樣很高,場均增加1.5分,他在球權達標的327個人中排名第20位。而裡基-盧比奧則是最低的,場均負增加3.33分。“當我們提到保羅擁有最高的3.48分的得分增長”德阿莫爾解釋說“我們是說他的球隊場均都因為有他而增加3.48分,而不是一個普通平均水平的球員,每一次他接球根據場上形勢作出判斷都舉足輕重。”

“總的來說,球員要想(在這項統計上)得到高分,就需要提高——他們自己的投籃能力以及他們隊友的水平,這樣分數才高,”德阿莫爾繼續說道“比方說,某個球員的投籃能力高出其他人一截(咳咳,比如德克的中距離),或者能很好的發揮隊友的天賦(咳咳,比如阿倫的三分),那麼這個球員的資料就是‘+’。但假如一個球員命中率慘淡,隊友更願意把球傳給投籃更好的人,或是把球傳給了錯誤的人(比如,盧比奧傳給手腕有傷的樂福),那麼這個球員的資料就是‘-’。”

盧比奧的“負增加”主要是因為他那不幸的投籃能力。相比聯盟平均水平,他在各個區域的命中率都很不理想。就預球權分的替換差值(over replacement)而言,基本上你換任意類似的球員投同樣的球,分值表現都會比他更高。出於這個原因,即使只算他不投籃時的增加值,其模型總評還是很低注3

注3:點選這裡瞭解更多

以下為注3中論文部分所引用一組對比,即預球權分增加(EPVA)最高和最低的兩人。隨機提取了他們某一段時間行動的預球權分(EPV)波動變化。

中間EPV處黑點為該球員的EPV,灰點為平均水平球員的EPV,中間左右兩側為傳球(Pass1,2,3,4),命中(Made Shot),投失(Missed Shot)以及失誤(Turnovers)的概率,深色為該球員在此情況下的相應概率,淺色為平均水平球員在此情況下的相應概率。

hp9

如上圖所示為克里斯-保羅在一次三分線持球開始,到突破至籃下結束的EPV變化,我們將其與平均水平球員在同等條件下做同種動作的EPV進行對比。初始時刻,保羅三分線外持球,他的各種動作趨勢並不明顯,但他的EPV(0.96)略低於平均水平(1.0)(譯者認為此處要考慮保羅該點的三分球命中率以及他選擇突破或傳球的趨勢(造成EPV波動),因此略低);而終止時刻,保羅已成功殺入籃下,由於其籃下命中的可能性極高,當然不排除他籃下突分及失誤的可能性,但從上圖可以看出,此時保羅命中的概率最大,因此他的EPV飆升至1.58,而平均水平球員在此情況下的EPV則只有1.28。因此,本次進攻保羅的EPVA為1.58-1.0=0.58 這只是這一次的EPVA,而場均的就顯然是超級計算機的工作了。

hp10
再來看裡基-盧比奧的本次動作,他從籃筐的右側持球開始,運球到籃筐左側結束。運用上述方法進行對比。初始時刻,盧比奧籃下持球面對空籃,兩位防守者在其身後,如上圖,由於其籃下終結能力較差(投失概率最大),其EPV僅有0.81,而平均水平球員此時EPV高達1.58;隨後他運球至籃筐左側尋找機會(但傳球概率也隨之減少),防守者也補防到位,但由於其籃下終結能力較差(投失概率最大),其EPV還是僅有0.86,而平均水平球員也降到了0.92(有人補防等因素)。因此,本次進攻盧比奧的EPVA為:0.84-1.58=-0.74(此處原文為-0.66,譯者看圖許久也沒看出來怎麼算的)。

另外附上注3中論文的附錄1——上賽季NBA球員的EPVA的正數前十和倒數前十,要說一句的是,當時僅有14個場館安裝了光學追蹤攝像機,資料樣本不完全,因此無法覆蓋所有球員的每一場比賽,比如保羅和詹姆斯(排名正數第23)就只捕捉了他們某些客場的光學影像,分別為11場和17場。譯者認為保羅第一是由於他的自主進攻能力,創造機會能力,以及隊友把握機會能力都很強,而文中明確指出,盧比奧排名墊底則是與其全場無死角的低投籃命中率有關(神翻譯來自@ scifihoop)。

hp11

尾聲

預球權分專案的總體貢獻我們還不得而知,它還處在一個幼兒期,絕不可能現在就能對籃球分析發起一場“革新”。但它最終將會為NBA開闢一條全新道路來分析球員表現。也許結果不盡其然,也許它的作用不在評估球員的真實價值,而在於為未來世界的籃球分析提供一種新的思維想法,新的計算能力,又或是新的理論基礎。這幾年來,我們總是在說要創造一種“先進資料”,可事實上我們卻僅僅是對一些演算法稍加精進而已。無論我們是否願意,這種情況都要有所改變。不要誤會我——每回合得分和PER值已經顯著提升了籃球的分析能力。但是,未知的世界還很大,我們要做的是還很多。考慮到目前我們所獲得的追蹤資料浩如瀚海,我們迫切的需要找到一種類似的新型資料提取技術。

只可惜,最好的資料組已越來越難得到,而計算也變得越來越複雜,坐在家裡就能進行這種資料分析的未來還是比較遙遠。

via:虎撲