Intel研究院院長吳甘沙演講全文:大資料分析師的卓越之道(32PPT)

史努B發表於2018-05-10

Intel研究院院長吳甘沙演講全文:大資料分析師的卓越之道(32PPT)



親愛的各位同仁,各位同學,早上好。講到大資料,就要問資料分析師應該做什麼?所以我今天的標題是大資料分析師的卓越之道。這裡不一定講的對,講的對的我也不一定懂,所以請大家以批評式的方式去理解。



這是一個典型的資料分析的場景,下面是基礎設施,資料採集、儲存到處理,左邊是資料處理,右邊價值輸出。連線資料和價值之間的是這知識發現,用專業詞彙講,知識就是模型,知識發現就是建模和學習的過程。問題來了,大資料時代帶來怎樣的變化?首先資料變得非常大,資料是新的原材料,是資產,大家的希望值也非常高。一旦大資料洪流過來,我們原有基礎設施都被衝的七零八落。所以過去十幾年事實上業界都在做大資料基礎設施,我怎麼做大規模水平擴充套件,怎麼提高分散式操作效能,怎麼把磁碟快閃記憶體化,所有這些都是基礎設施。




改變思維方式

基礎設施升級了,知識發現的過程是不是能自然升級?我跟大家說天下沒有免費的午餐。今天的主題是基礎設施已經改朝換代了,我們分析師也應該與時俱進,體現在三個方面:第一、思維方式要改變;第二、技術要提升;第三,分析的能力要豐富起來。




首先,說一下思維方式。改變思維方式最重要的就是改變世界觀,這個就是牛頓機械論世界。我如果在這個時刻與宇宙當中所有的原子的狀態都是可確定的話,就可以推知過去任何一個時刻和未來任何一個時刻,這就是牛頓的機械論。雖然愛因斯坦發展了這個理論,但本質還是確定論,決定論。但是今天的世界事實上是不確定的,世界觀是基於概率的。大家都知道薛定諤的貓,貓在盒子裡到底是死還是活的。其實它可能同時是死的,也同時是活的。但是一旦開啟這個盒子,它就變成確定了,它要麼就是真的死了,要麼就是真的活著。開啟盒子,有一半的概率殺死這隻貓。



這個理念事實上反映的是海森堡的不確定主義,就是你的行為會改變被觀測的現象。很多大資料事實上也有測不準的,像Google流感的預測,大家可以看在2013年1月份的階段,橙色的線表明Google的預計的流感概率高於疾控中心實際測到的概率。所以《科學》和《自然》就發話了,《自然》認為是《科學》測不準,《科學》說這是大資料的傲慢。在這個案例來,即使Google也拿不到全量的資料。縱然有有疾控中心的資料和當中調整模型等等的,資料還是不精確。你以為這種相關性就能解決問題,但是健康的問題就是要究其原因,要有因果性。大家看這個預測的過量就導致了預感疫苗準備的過量。

所以資料的方法論需要升級。



這是一個典型的資料分析的流程,可以先由假設採集資料,也可以先採集了資料,然後從中發現假設。有了資料以後下一步就要做資料的準備,資料準備往往是最花時間的。然後分析,分析完了要考慮怎麼解釋這個結果。另外一個就是要驗證,從隨即對照實驗到現在AB測試,我們要去驗證。但是到了大資料時代這個方法論要怎麼改變呢,首先我們說測不準,所以需要加一個反饋迴圈,我們不停的反覆做這個。這裡雖然有很多噪聲,但是這個是可以處理的,還有一些是系統噪聲,可能因為汙染的資料來源,這個就要特別處理。我們做資料分析需要實時,互動,要快,這樣才能趕的及世界的變化,所以這裡需要很多很多的東西。


一、假設



首先看假設。大資料思維需要我們先有很多資料,然後通過機械的方法發現其中的相關性,之後再找到假設。有時候相關性確實太多了,弱水三千只取一瓢飲,這裡面就需要我們的直覺。怎麼訓練直覺?就是像讀懸疑小說,你經歷這麼一個推理的過程。如果說這樣的推理過程只是模型,也還需要資料,需要很多先驗的知識。這個知識怎麼來呢?就是廣泛的閱讀。第二個,跨界思想的碰撞,跟很多人聊。這兩個是背景知識,還有一個前景知識,就是在上下游裡融入到業務部門。我們希望把資料分析師放到業務部門,和它們融入到一起,這才能防止資料和分析脫鉤,資料分析和業務應用的脫節。


二、資料採集



第二個,資料採集,這裡我非常誇張地強調“資料!資料!資料!”為什麼?因為大資料碰到的第一個問題就是資料飢渴症。我們有一次跟阿里聊,他們說也缺資料,只有網上的銷售記錄,而缺乏無線的資料。所以我們強調全量資料,我們儘量不取樣。


同時現在我們企業已經從小資料到大資料,有人說資料改變太困難了,太貴了,其實它強調的是問題還沒存在的時候。傳統的資料倉儲是,我先有一個問題,然後根據這個問題蒐集和組織資料。從現在的大資料來說,需要先把資料送進來,然後再不斷的提問題,這就是一種新的思維。我們需要大量的外部資料來源,而且你要從傳統的結構化資料到半結構化、非結構化資料。傳統結構化資料是什麼,交易資料。但是現在我們企業裡面馬上就有兩個非結構化資料出現。


第一個就是日誌分析,大家知道大資料第一家上市公司是Splunk就是從事這一業務。


第二個就是文字資料,現在我們經常聽說情感分析,即是文字資料。我們需要做問答系統,甚至是最新的所謂的互動式對話系統,都需要文字資料。


第三個是從文字到圖片再到視覺,計算機視覺、模式匹配、語義分析。很多資料都是有時間和空間的標籤,怎麼保證資料的時空,怎麼能夠實時處理這些新的資料。


最後,還有很多資料是網路資料,比如說社交網路,我們怎麼來判斷個人的影響力,怎麼來判斷網路的控制中心在哪裡,都需要一些新的處理方式。



是不是前面說的這些都是合理的?比如說英特爾事實上是不可能採集到資料,而有時候你採集不到全體資料,你也不需要。


是不是資料更多就越好呢?未必。我們拿英特爾作為一個例子,青海、西藏、內蒙古佔的面積是我們國土面積的一半,我們採集這四個省的面積,是不是都代表中國呢?未必!第二個是“原始資料”是不是一個矛盾的概念。因為原始資料可能並不原始,它受到採集人的影響。大資料裡面的噪聲很多,但是有時候在資料裡面訊號就是以噪聲的方式變成的。 比如說現在我們世界要傾聽每一個個體的聲音,有一些個體的聲音是非常少的,在資料裡面非常少,但是你不能忽略它。取樣本身是有偏差的。有一個經典的故事,二戰的時候飛機飛回來的時候有很多彈孔,人們分析到底是加固哪個地方好呢?很多人說是機翼,沒有想到要加固座艙,因為取樣是有偏差的。尤其是大資料,有一些子資料級,每一個資料是按照不同的抽樣規範來獲得的,這樣就有采樣偏差。


同時你要考慮資料權利的問題,這些資料是屬於誰的,有沒有隱私問題,許可是不是有範圍,我是不是按照許可的範圍做了,我能不能審計,這些都是資料的權利。未來資料交易的話還要解決資料的定價問題,這是非常困難的。


當我有了資料以後,需要生命週期的管理,大資料生命週期管理非常重要。一是出處或者是來源,即是大資料的的家族譜系,它最早是哪裡來的,它又移動到什麼地方,經過什麼樣的處理,又產生了什麼樣新的子後代。現在我們強調資料採集,是不是有這個必要?我們發現其實很多資料沒用以後,就應該刪除。


例如,網際網路公司採集了很多滑鼠移動的資料,用Cookies來採集滑鼠在什麼地方,可以瞭解使用者的瀏覽行為。但是過一段時間網頁都變化了,這些資料還有什麼用呢?只能刪除掉。所以並不是說資料越多越好,資料永遠都要儲存。


三、資料的準備



下面講資料的準備,大資料的質量非常重要。剛才我們說它的精確性有問題。一個非常著名的研究機構做了統計,詢問說大資料分析師兩個問題,一方面資料大,是不是他們的問題,另外一方面資料質量是不是他們的問題,選擇後者是前者的兩倍。大資料本身就是有噪聲的,有偏差的,也是有汙染的資料來源。你的目標是建立一個模型,要對噪聲建模,同時還要是訊號不能太複雜,模型不能太複雜。


一般的處理方法是資料清洗和資料驗證。有這樣一種說法,前者關注資料是錯的,資料有些是丟失的或者有些資料是相互矛盾的。我通過清洗、驗證的方式把它做出來,大資料非常大怎麼辦?有沒有可能從一小部分資料開始做清洗,有沒有可能把整個過程自動化,這是研究的前沿。


另外一個前沿就是資料的清洗能不能跟視覺化結合起來,通過視覺化一下子發現了這些不正常的地方。通過機器學習的方式來推理不正常現象的原因。


我覺得現在最熱的研究課題是,你怎麼能夠通過學習的方式來發現非結構化資料當中的結構,你怎麼能夠把哪些看似不同的資料挑出來。比如說有些地方叫國際商業機器公司,有些地方叫藍色巨人,你最終能夠把這些資料的表示出來,使得它馬上就可以分析。我首先考慮怎麼能夠降低計算通訊的代價。



大家看我們大資料經常是稀疏的,大資料太大了我們有沒有可能壓縮。大家知道我們原來的資料倉儲,最大、最麻煩的問題就是我要給這個表增加列。現在我發現通過增加列的方式變得非常簡單,我通過資料壓縮樹立的話更有區域性性。


另外就是近似的資料,它就是一種通過降低時空複雜性,使得它誤差稍微增加幾個百分點,但是其中計算量下降幾個數量級。大家也應該聽說過很多方式都是做這個的。


怎麼能夠降低統計的複雜性,其實大家知道大資料就是高緯,怎麼辦?降下來,我通過降緯的方式能夠降低它的複雜性。我們還是需要取樣的,大家知道隨機性取樣,並不代表用一個均衡的概率取樣,所以要使用不同的組取樣。你可能需要一種新的取樣的方式,比如說雪球取樣,你先找一個種子然後再慢慢的擴大。即使你壓縮了很多,但是你還是可以恢復原始資料的。


我想請大家注意,資料分析師並不是考慮資料表象的問題、模型的問題,最終還是要考慮計算是怎麼做的。所以我們要選擇最好的表示。比如說資料並行的計算就用表或者是矩陣,如果是圖並行,我就要選擇網路的格式。


最後,我想請大家注意UIMN,這個能夠幫助你來儲存各種各樣資料表示,以及跟資料分析對接。這個東西大家沒聽說過的話,大家一定聽過Worse在人機競賽中的電腦,它就是用這個表示的。


四、資料分析



最後,查詢。很早資料就是查詢,接著是統計學,接著到機器學習,所以我們說資料探勘是這三個學科的交叉,而這些學習又是從人工智慧脫胎出來。慢慢的從這兒又包了一層ABB,現在又有最新的內腦計算,分佈學習。所有這些大家不能忘記,這些工具都要跟相關的計算的模型給對接起來。所以這是非常困難的東西。






我們資料分析師還是有些裝備的,這個是現在最流行的四種分析的語言,Saas,R,SQL,還有python。可能還需要學習JAVA這樣的語言。這個可能還不夠,還需要JAVASrcit,所以需要來更新我們的裝備。但是有人說了這些裝備都是為傳統的資料分析師準備的,大家不要擔心,因為在這些語言下面都已經有了大資料的基礎設施,比如SQL,可以使你以前的語言平滑的遷移到大資料基礎上。更方便的是現在所有做基礎設施的人都在考慮一個詞,ML Pipeliine,而且現在更多的東西都可以放到雲裡做了。大家看到現在所有這些大資料的基礎設施我們都叫做動物園了,因為很多都是以動物的圖示來展示的,都可以放到雲裡去,所以這給我們帶來了很多方便。



這是一個統計學的大師說的,所有模型都是錯的,但是有些是有用的,關鍵是選擇什麼樣的模型。有一種人是一招鮮吃遍天,還有一種是一把鑰匙開一把鎖。我是開放的,我根據我的問題來進行選擇。模型的複雜度必須與問題匹配的。有各種各樣模型都能解決的時候,就選擇最簡單的一個。


我們現在做資料分析碰到兩個問題:一個是過載,還有一個是資料量大了以後,模型沒辦法提升。這裡就有一個很著名的人,叫彼特,他寫《人工智慧現代方法》一書。他說,簡單模型加上大資料,比複雜模型加小資料更好,這個對不對?這個在很多情況下是對的,但是並不完全對。而且有時候模型簡單引數很多,場景不同引數不同,假設場景是文字處理,可能每個單詞就是一個特徵,所以這個模型非常複雜,所以大資料是有用的。還有一種解決資料過多的方式,就是通過另外一種方式。比如帶引數的線性模型針對小資料,這樣又能夠提升分析的效率,又能夠解決資料的計算量的問題。


我剛才講到長尾訊號非常非常重要,我們現在不能忽略長尾訊號,那怎麼辦?我們傳統的分析很多都是基於指數的假設,這個就是割尾巴,到後面就是沒尾巴,這樣就把長尾訊號都過濾掉了,我可能是需要一些基於神經網路的方式。分析要快,第一,我們一直強調傳統的是送進去的,我60秒完成跟6分鐘完成是不是一樣的呢?或者說它們的效率差一點點或者差幾倍?未必,雖然等待時間拉長,分析師的耐心會降低。像針對時空的資料,現在機器學習強調的線上學習,增量的學習,流逝的學習,資料一邊進來一邊學習,一邊更改模型,這個就很重要。最後當你的資料又大,又需要快的時候,你不懂系統是不行的,你必須懂系統,你必須懂資料並行,任務並行,必須做系統調優的東西。


我前兩天跟一個朋友聊,他說現在所有分析資料的調優做到隨機的訪問都在CPU快取裡,到磁碟上的訪問都是序列的訪問,這樣才能讓系統調優做到最佳。從語音識別,到影象理解,到自然語言理解。上面都是人們做的認知任務,深度學習下一步會進入非認知任務,像百度用來做搜尋廣告,包括做要務的發現,我現在也在做機器人,機器人很多需要深度學習,我們現在把深度學習放進去也非常好。大家的福音就在於現在深度學習很多的程式碼都是開源的,去年花了很多力氣去做各種各樣的模型,現在所有模型全部都開源,所以下一步大家注意,我們的科學是開放的。你有大量的開源的軟體,而且現在不但你論文放在ICup上,你的資料程式碼可能放在Dcup上,所有都是開放的。



還沒有學Sparsecoding的話大家可以看一下,還有在標註下的學習,這張PPT是吳恩達的,橙色的都是標註資料,你要有大象和犀牛的資料,就是左面的是標出的,我可以結合一些非標註的東西學習,然後可以引入其他的標註資料,像羚羊的資料也可以幫助我們學習,最後到拿一些完全不相關的資料跟它們進行學習。


人類角色在變化,前一段時間有人提出來,人的角色。因為資料分析師要懂機器,懂工具,我們要跟工具更好的配合,因為我們的角色一直在用機器替代它們。機器學習最重要的就是特徵學習,現在無監督的,它可以幫助你學習特徵,而且很多工具開始自動化了,那麼你怎麼跟它工作搭配,能夠獲得最好的效率呢?就是你一邊在利用工具獲得一些資料,然後提出問題是一個迴圈的過程。現在就是大規模的人跟人,人跟機器協同配合,因為很多機器可以外包,你可以眾包,你大量資料通過眾標方式進行標註。包括協作,現在開放資料,光開放還不行,還要在這個資料上進行多人協作分析,你要對資料進行版本的管理,還有現在所謂的人類計算,像大家都在上面學習英語,在學習英語的過程是對網際網路進行翻譯的過程。


五、解釋和驗證




最後,就是解釋和驗證。今天的大會標題是要懂技術,懂藝術。這裡一個很重要的就是講故事,你有了分析之後怎麼講出來。比如說啤酒加尿布,它就符合了講故事的3D:戲劇性、細節、參與這個對話的過程。啤酒加尿布,這個案例我給大家說這是編出來的,但是它符合了這個過程,所以它就馬上傳播出去了,變成大家都願意去支援資料分析的這麼一個案例。包括魔球(電影Money ball)也是這樣,非常強調資料分析怎麼來改變棒球運動的,但是事實上它也沒有說出來是,這裡很多工作是通過裁判去做的,有些人非客觀的因素,像意志力,像抗壓力。還有像Facebook做控制情緒的實驗,還有Uber分析一夜情。我還是想強調好的講故事能夠使分析事半功倍。




我們希望現在能夠把大量的過程文件化,這樣可以進行學習還有就是通過模擬預測未來。所以這就是最後的總結,現在我們的大資料的基礎設施已經改朝換代了,我們的資料分析師,我們怎麼來改變我們的思維方式,怎麼來提高我們的技術,怎麼來豐富我們的分析能力?這是需要我們不斷思考的問題,謝謝大家。





相關文章