從大資料中找到那些隱藏的大智慧

小胖妞妞發表於2015-04-20

你可能已經知道“大資料”是2015年來最熱門的話題。你怎麼可能不知道呢?因為供應商和記者之流總是不停地用這個詞給大家洗腦(這條指控一點兒也沒冤枉他們)。相信你也知道他們都是如何大肆宣傳的吧?大資料將為我們提供一切問題的答案,可以使公司的運作更加高效,有助於制定絕妙的、由資料驅動的決策,為公司提供一柄競爭利器。

從某種程度上說,這樣的說法的確沒錯,但是,如同其他被過度宣傳的技術一樣,許多公司都發現這一切實現起來很困難,現實和廣告宣傳之間存在著相當大的差距。他們也許已經想出了有效的方法來收集和處理資料,但要讓它付諸於實際,並幫助做出更好的決策卻是另一回事。這些公司試圖找出大資料和深度理解大資料之間所缺失的至關重要的一環,因為如果不盡快解決這一問題,他們最終只能空守一大堆混亂的資料,而得不到任何收穫。

正如一位矽谷內部人士告訴我的:最近,在創業公司的活動和融資方面,大資料的收集與處理已經受到越來越多的關注,可與此同時,預期和實際結果之前卻存在著巨大的鴻溝。他指出:“大資料還沒有轉換成大知識、大見解和大智慧。”據他們估計,為了達到這一目標,我們仍有很長的路要走。

分清現實和炒作

我們願意相信我們能很方便地從大資料中獲取有價值的資訊,簡單得就如同以下幾個步驟:將資料匯入,跑一段程式,然後就能得到想要的結果,可實際要比這複雜得多。《資料預測:大資料戰略》(Data Divination: Big Data Strategies)一書的作者Pam Baker指出,儘管存在明確事例證明可以從資料中直接獲取答案,但並非事事如此。

她解釋道:“在相當多的情況下,資料可以為我們提供明確的答案。例如,預測分析能夠精確地預報飛機或者供水系統中某個零件的使用壽命,而且還能告訴我們更換零件的準確時間,以確保舊零件在損壞之前,我們能儘可能地利用它。”

但她又補充道:“還有很多情況,我們雖然無法得到明確的答案,但我們可以從多種可能的行動中採取一種,或者我們甚至可以選擇不採取行動。這僅取決於你所做的事情。”

Baker所言極是,一些由資料驅動的決策比我們所看到的要微妙得多,而且,正如Brue Springsteen(一位男歌手)曾經所唱,做出決策“還需要一點人情味兒”。人們可以通過開發可靠的度量標準以及強大的演算法來幫助決策的制定,還必須知道如何最大限度地利用資料中透露出的資訊。這些資訊有時很直觀,有時卻很隱晦。

專家的缺乏

我們也願意相信大資料能夠使商業使用者直接且迅速地進行資料的訪問,更神奇的在於,能夠使他們在訪問的過程中就可以做出最佳決策。很不幸,我們如今擁有的工具還不足以提供如此神奇的功能。

為了解決這一問題,我們需要更多大資料專家們的幫助,幫我們處理資料、從海量資訊中尋找答案。Keith Rabois是Kholsa Ventures公司的投資合夥人,他對諸如Parstream這樣的大資料公司很有興趣,據他所言:公司需要大資料科學家們進行極為複雜的深入分析,但一般的公司做不到這一點。

Rabois說道,我們希望讓大資料科學家們去進行應用程式及演算法的研究,甚至希望他們能扛起研究資料科學的重任,但事實上,許多公司裡的大資料科學家並非總有時間做這些事,部分原因在於他們往往把時間花在了不需要他們盡情發揮聰明才智的不太複雜的分析上,

Rabois還稱,最理想的情況是,大資料科學家已經開發出用於將分析分發到整個組織中需要答案的各個部門的工具。 在這樣一個問題需要被快速解答的年代裡,我們不希望產生這樣的瓶頸,當你跑去向專家尋求答案時,卻只能等待結果。

問題在於,即使最聰明的科學家開發出極其複雜的演算法,也無法為複雜問題提供確定性答案。因為它無論如何也不可能將問題的所有因素都考慮在內,或者無法考慮某些難以度量的因素。

替我找個優秀的中場手

棒球就是個很好的例子,理論上,各方面能力相當的兩名選手,比賽時可能引起完全不同的結果。統計學極客們將告訴你,他們花了多年時間開發出一款名為棒球資料統計分析法(Sabermetrics,譯者注[1])的演算法,當你需要一名優秀的球員來填補球隊中某個特定位置時,該演算法可以為你提供所有你想要的資訊。他們還引入了一系列諸如“額外勝利數(WAR,譯者注[2])”之類的測量統計類術語,FanGraphs網站(譯者注[3])對該術語的描述如下:“如果某名選手受傷,其球隊不得不用低階別球員或是“能力不佳”的替補選手將其替換,那麼這支球隊會因此丟失多少分呢?”他們用一系列複雜的指標來衡量這樣的更換所導致的勝率差異。

毫無疑問,所有這些複雜的指標都有助於更加準確地計算選手的價值,但它們測量不了所有情形,例如選手在壓力下的表現、他勤學苦練的程度、所具有的領導特質,以及他與隊友的相處情況等等。所有的這些因素也都很重要,但卻更加難以量化得多。

純統計測量理論的信徒會告訴你“一切皆可測量”,這幾乎可以認為是正確的。但我就曾經見過兩個理論資料上基本相同的選手,後者接替了前者所在的位置,但比賽表現卻遠不如前者,儘管他倆的統計資料非常相似。

此類情形同樣也可以應用到商業中。人力資源部在招聘時,就會遇到雷同的場景:為某個程式設計師職位挑選最為合適的應聘者。此時,你手頭上有兩個技術能力相當的專業人員同時競爭該職位,但他們其中一個可能情商較高,可以很好地與同事合作,而另一個卻完全不善溝通,遺憾的是,這些都無法從簡歷看出來。即便有了很多資料資訊,我們也很難將所有可能的結果一一考慮,尤其涉及到人為因素時。

考慮醫學診斷中的細微差異

任何一位優秀的醫生都會告訴你,即使兩個病人的症狀完全相同,也可能需要使用不同的治療方法。這是因為治療方法往往依賴於個體因素,例如年齡、體重、其他身體健康狀況,以及額外的特殊因素。

我們以IBM Watson電腦(譯者注[4])的使用為例,這是一臺可以用於醫療的智慧分析平臺。最近,我向一位朋友談及有些醫生已經開始使用Watson來幫助進行病情的診斷以及提供治療方法,他聽後很生氣,因為他不想由一臺機器來決定自己的治療手段。這種想法很正常。但在我說的情況裡,並非只是Watson簡單地給出個答案,而醫生則盲目地跟從。Watson會基於已經有的跡象、對病人的瞭解、症狀,以及當前的研究水準,給出一些可選項,供醫生選擇(這與醫生實際的工作情形並不相同)。

正如我指出的,醫生們忙於工作,往往不能緊跟自身所在領域的研究步伐,因為相關的研究實在太多了(當然,這是件好事)。這也正是Watson發揮作用的地方。它能夠以比人類快得多的速度從當前的研究成果中為醫生甄選出需要的資訊,但另一方面,醫生仍然需要了解病人間的細微差別,應用自身的知識,最終確定治療方案。我喜歡將這一過程稱為科學中的藝術。知識能將我們帶得很遠,但最終的決定權依然在醫師而非機器的手中。

企業很可能也將面臨類似這樣不確定的結果,這時就需要有人員參與,運用自身的知識,在資料的幫助下做出選擇。

何去何從?

機器有時可以提供人類需要花費多年時間才能找出的答案和見解。舉個例子,Baker指出大資料已經幫助我們找出例如癌症等許多疾病的答案,而人類的研究者甚至從未想過要從這些方面入手研究。她告訴我,“如果沒有大資料為我們提供這些資訊,我們很可能永遠無法找到合適的治療方案(或者說,至少幾年內無法成功)。我的觀點就是:大資料絕對可以做到相當精準的程度。”

另外,她相信,在不久的將來,機器學習可以發展到一個足夠成熟的高度,到那時,機器也許可以為我們作出更多決策,因為人腦永遠不可能記下所有有用的資訊。

她的觀點很可能是對的,但就目前而言,我們收集和處理資料的能力似乎領先於對資料涵義的理解能力。正於Baker所提出的,預測分析技術一直在提高,並且有時資料能直觀地給出答案,但這仍然是一個複雜的人機互動的過程。即使技術正在不斷向前發展,但如何將兩者合二為一依然是一項正在探索中的工作。

除非我們能找到某個平衡點,或者機器技術有顛覆性的發展,否則我們仍將面臨大資料與大智慧之間的鴻溝,並且需要花一定的時間以及依靠技術進步來填補這一鴻溝。

譯者注:

[1]賽伯計量學(英語:Sabermetrics):又譯為棒球記錄統計分析,運動科學之一,對於棒球活動進行客觀的分析,特別是針對於在棒球比賽時的棒球統計資料做出解釋與評估。英語:Sabermetrics這個單字,源自於美國棒球研究學會(Society for American Baseball Research)的縮寫 SABR,再加上計量學的字尾 metrics 所組成。這個學門最早源自於比爾·詹姆斯(Bill James)對棒球統計資料所做的一系列分析。(以上解釋來自維基百科)

[2]額外勝利數:全稱為Wins Above Replacement或Wins Above Replacement Player,一般用其縮寫WAR或者WARP, 這個術語是棒球中對球員的綜合評價指數,用於統計球員對球隊的總體貢獻。其中Replacement是“替代”的意思,Replacement Level代表的是“用最小的代價就可以在市場上找到的球員”,所以用該指數來表明一名先手能比Replacement Level級別的選手多帶來幾場勝利或貢獻。(以上解釋譯自維基百科)

[3]FanGraphs: 是一個網站名稱(Fangraphs.com),為美國職業棒球大聯盟歷史上每一個球員提供統計資料。(以上解釋譯自維基百科)

[4]Watson: IBM最新的電腦系統Watson,它運算更快,記憶力更好,它也懂一些人類語言中的暗喻和雙關。Watson得名於IBM創始人Thomas J. Watson,開發的目的不是為了參加比賽,而是為了解詞彙、語言和人類知識中的更復雜領域。(以上解釋來自百度百科)

相關文章