清華基於微博分析獲得的大資料幸福指數發現人們週六最幸福,相信大家心情不錯,因此今天不談枯燥的技術。關於大資料的思維、理念、方法論已經被反覆消費了,本來我想直接進入互動環節,繼挺兄還是要求先有一部分規定動作,我就先自彈自唱幾十分鐘,既然是漫談,也不見得扣題,說到哪裡是哪裡。各位有問題,我可以擇時擇機插入討論。
先說大資料思想的形成吧。自從人類開始文字和數字,資料就開始產生。就資料增長曲線而言,極小的初值確實要經歷漫長的過程達到人類能感知的曲線拐點。谷歌前CEO埃裡克·施密特曾給出了一個有趣的資料:從人類文明曙光初現到2003年一共產生的資料,只相當於2010年兩天產生的資料量。而一旦越過拐點,“大資料摩爾定律”的滾滾鐵輪下,指數效應爆發:最近兩年產生的資料量相當於之前產生的全部資料量。
在漫長的資料蓄水過程中,數學和統計學逐漸發展,人們開始注意對資料的量化分析,在人類進入資訊時代以前這樣的例子就不勝列舉。比如經濟上,黃仁宇先生對宋朝經濟的分析中發現了“數目字管理”(即定量分析)的廣泛應用(可惜王安石變法有始無終)。又如軍事,“向林彪學習資料探勘”的橋段不論真假,其背後量化分析的思想無疑有其現實基礎,而這一基礎甚至可以回推到2000多年前,孫臏正是通過編造“十萬灶減到五萬灶再減到三萬灶”的資料、利用龐涓的量化分析習慣對其進行誘殺。
到上世紀50-60年代,磁帶取代穿孔卡片機,啟動了資料儲存的革命。磁碟驅動器隨即發明,它帶來的最大想象空間並不是容量,而是隨機讀寫的能力,這一下子解放了資料工作者的思維模式,開始資料的非線性表達和管理。資料庫應運而生,從層次型資料庫(IBM為阿波羅登月設計的層次型資料庫迄今仍在建行使用),到網狀資料庫,再到現在通用的關聯式資料庫。與資料管理同時發源的是決策支援系統(DSS),80年代演變到商業智慧(BI)和資料倉儲,開闢了資料分析——也就是為資料賦予意義——的道路。
那個時代運用資料管理和分析最厲害的是商業。第一個資料倉儲是為寶潔做的,第一個太位元組的資料倉儲是在沃爾瑪。沃爾瑪的典型應用是兩個:一是基於retaillink的供應鏈優化,把資料與供應商共享,指導它們的產品設計、生產、定價、配送、營銷等整個流程,同時供應商可以優化庫存、及時補貨;二是購物籃分析,也就是常說的啤酒加尿布。關於啤酒加尿布,幾乎所有的營銷書都言之鑿鑿,我告訴大家,是Teradata的一個經理編的,人類歷史上從沒有發生過,但是,先教育市場,再收穫市場,它是有功的。
僅次於沃爾瑪的樂購(Tesco),強在客戶關係管理(CRM),細分客戶群,分析其行為和意圖,做精準營銷。
這些都發生在90年代。00年代時,科研產生了大量的資料,如天文觀測、粒子碰撞,資料庫大拿吉姆·格雷等提出了第四正規化,是資料方法論的一次提升。前三個正規化是實驗(伽利略從斜塔往下扔),理論(牛頓被蘋果砸出靈感,形成經典物理學定律),模擬(粒子加速太貴,核試驗太髒,於是乎用計算代替)。第四正規化是資料探索。這其實也不是新鮮的,開普勒根據前人對行星位置的觀測資料擬合出橢圓軌道,就是資料方法。但是到90年代的時候,科研資料實在太多了,資料探索成為顯學。在現今的學科裡,有一對孿生兄弟,計算XX學和XX資訊學,前者是模擬/計算正規化,後者是資料正規化,如計算生物學和生物資訊學。有時候計算XX學包含了資料正規化,如計算社會學、計算廣告學。
2008年克里斯·安德森(長尾理論的作者)在《連線》雜誌寫了一篇《理論的終結》,引起軒然大波。他主要的觀點是有了資料,就不要模型了,或者很難獲得具有可解釋性的模型,那麼模型所代表的理論也沒有意義了。跟大家說一下資料、模型和理論。大家先看個粗糙的圖。
首先,我們在觀察客觀世界中採集了三個點的資料,根據這些資料,可以對客觀世界有個理論假設,用一個簡化的模型來表示,比如說三角形。可以有更多的模型,如四邊形,五邊形。隨著觀察的深入,又採集了兩個點,這時發現三角形、四邊形的模型都是錯的,於是確定模型為五邊形,這個模型反映的世界就在那個五邊形裡,殊不知真正的時間是圓形。
大資料時代的問題是資料是如此的多、雜,已經無法用簡單、可解釋的模型來表達,這樣,資料本身成了模型,嚴格地說,資料及應用數學(尤其是統計學)取代了理論。安德森用谷歌翻譯的例子,統一的統計學模型取代了各種語言的理論/模型(如語法),能從英文翻譯到法文,就能從瑞典文翻譯到中文,只要有語料資料。谷歌甚至能翻譯克萊貢語(StarTrek裡編出來的語言)。安德森提出了要相關性不要因果性的問題,以後舍恩伯格(下面稱之為老舍)只是拾人牙慧了。
當然,科學界不認同《理論的終結》,認為科學家的直覺、因果性、可解釋性仍是人類獲得突破的重要因素。有了資料,機器可以發現當前知識疆域裡面隱藏的未知部分。而沒有模型,知識疆域的上限就是機器線性增長的計算力,它不能擴充套件到新的空間。在人類歷史上,每一次知識疆域的跨越式擴充都是由天才和他們的理論率先吹起的號角。
2010年左右,大資料的浪潮捲起,這些爭論迅速被淹沒了。看谷歌趨勢,”bigdata”這個詞就是那個時間一下子躥升了起來。吹鼓手有幾家,一家是IDC,每年給EMC做digitaluniverse的報告,上升到澤位元組範疇(給大家個概念,現在硬碟是太位元組,1000太=1拍,阿里、Facebook的資料是幾百拍位元組,1000拍=1艾,百度是個位數艾位元組,谷歌是兩位數艾位元組,1000艾=1澤);一家是麥肯錫,釋出《大資料:創新、競爭和生產力的下一個前沿》;一家是《經濟學人》,其中的重要寫手是跟老舍同著《大資料時代》的肯尼思?庫克耶;還有一家是Gartner,杜撰了3V(大、雜、快),其實這3V在2001年就已經被編出來了,只不過在大資料語境裡有了全新的詮釋。
我們們國內,歡總、國棟總也是在2011年左右開始呼籲對大資料的重視。
2012年子沛的書《大資料》教育政府官員有功。老舍和庫克耶的《大資料時代》提出了三大思維,現在已經被奉為圭臬,但千萬別當作放之四海而皆準的真理了。
比如要資料全集不要取樣。現實地講,1.沒有全集資料,資料都在孤島裡;2.全集太貴,鑑於大資料資訊密度低,是貧礦,投入產出比不見得好;3.巨集觀分析中取樣還是有用的,蓋洛普用5000個樣本勝過幾百萬調查的做法還是有實踐意義;4.取樣要有隨機性、代表性,採訪火車上的民工得出都買到票的結論不是好取樣,現在只做固定電話取樣調查也不行了(行動電話是大頭),在國外基於Twitter取樣也發現不完全具有代表性(老年人沒被包括);5.取樣的缺點是有百分之幾的偏差,更會丟失黑天鵝的訊號,因此在全集資料存在且可分析的前提下,全量是首選。全量>好的取樣>不均勻的大量。
再說混雜性由於精確性。擁抱混雜性(這樣一種客觀現象)的態度是不錯的,但不等於喜歡混雜性。資料清洗比以前更重要,資料失去辨識度、失去有效性,就該扔了。老舍引用谷歌PeterNovig的結論,少數高質量資料+複雜演算法被大量低質量資料+簡單演算法打敗,來證明這一思維。Peter的研究是Web文字分析,確實成立。但谷歌的深度學習已經證明這個不完全對,對於資訊維度豐富的語音、圖片資料,需要大量資料+複雜模型。
最後是要相關性不要因果性。對於大批量的小決策,相關性是有用的,如亞馬遜的個性化推薦;而對於小批量的大決策,因果性依然重要。就如中藥,只到達了相關性這一步,但它沒有可解釋性,無法得出是有些樹皮和蟲殼的因導致治癒的果。西藥在發現相關性後,要做隨機對照試驗,把所有可能導致“治癒的果”的干擾因素排除,獲得因果性和可解釋性。在商業決策上也是一樣,相關性只是開始,它取代了拍腦袋、直覺獲得的假設,而後面驗證因果性的過程仍然重要。
把大資料的一些分析結果落實在相關性上也是倫理的需要,動機不代表行為。預測性分析也一樣,不然警察會預測人犯罪,保險公司會預測人生病,社會很麻煩。大資料演算法極大影響了我們的生活,有時候會覺得挺悲哀的,是演算法覺得了你貸不貸得到款,谷歌每調整一次演算法,很多線上商業就會受到影響,因為被排到後面去了。
下面時間不多了,關於價值維度,我貼一些以前講過的東西。大資料思想中很重要的一點是決策智慧化之外,還有資料本身的價值化。這一點不贅述了,引用馬雲的話吧,“資訊的出發點是我認為我比別人聰明,資料的出發點是認為別人比我聰明;資訊是你拿到資料編輯以後給別人,而資料是你搜集資料以後交給比你更聰明的人去處理。”大資料能做什麼?價值這個V怎麼對映到其他3V和時空象限中?我畫了個圖:
再貼上解釋。“見微”與“知著”在Volume的空間維度。小資料見微,作個人刻畫,我曾用《一代宗師》中“見自己”形容之;大資料知著,反映自然和群體的特徵和趨勢,我以“見天地、見眾生”比喻之。“著”推動“微”(如把人群細分為buckets),又拉動“微”(如推薦相似人群的偏好給個人)。“微”與“著”又反映了時間維度,資料剛產生時個人價值最大,隨著時間decay最後退化為以集合價值為主。
“當下”和“皆明”在Velocity的時間維度。當下在時間原點,是閃念之間的實時智慧,結合過往(負軸)、預測未來(正軸),可以皆明,即獲得perpetual智慧。《西遊記》裡形容真假孫悟空,一個是“知天時、通變化”,一個是“知前後、萬物皆明”,正好對應。為達到皆明,需要全量分析、預測分析和處方式分析(prescriptiveanalytics,為讓設定的未來發生,需要採取什麼樣的行動)。
“辨訛”和“曉意”在Variety的空間維度。基於大體量、多源異質的資料,辨訛過濾噪聲、查漏補缺、去偽存真。曉意達到更高境界,從非結構資料中提取語義、使機器能夠窺探人的思想境界、達到過去結構化資料分析不能達到之高度。
先看知著,對巨集觀現象規律的研究早已有之,大資料的知著有兩個新特點,一是從取樣到全量,比如央視去年“你幸福嗎”的調查,是街頭的取樣,前不久《中國經濟生活大調查》關於幸福城市排名的結論,是基於10萬份問卷(17個問題)的取樣,而清華行為與大資料實驗室做的幸福指數(繼挺兄、我、還有多位本群群友參與),是基於新浪微博資料的全集(託老王的福),這些資料是人們的自然表達(而不是面對問卷時的被動應對),同時又有上下文語境,因此更真實、也更有解釋性。北上廣不幸福,是因為空氣還是房價或教育,在微博上更容易傳播的積極情緒還是消極情緒,資料告訴你答案。《中國經濟生活大調查》說“再小的聲音我們都聽得見”,是過頭話,取樣和傳統的統計分析方法對資料分佈採用一些簡化的模型,這些模型把異常和長尾忽略了,全量的分析可以看到黑天鵝的身影,聽到長尾的聲音。
另一個特點是從定性到定量。計算社會學就是把定量分析應用到社會學,已經有一批數學家、物理學家成了經濟學家、寬客,現在他們也可以選擇成為社會學家。國泰君安3I指數也是一個例子,它通過幾十萬使用者的資料,主要是反映投資活躍程度和投資收益水平的指標,建立一個量化模型來推知整體投資景氣度。
再看見微,我認為大資料的真正差異化優勢在微觀。自然科學是先巨集觀、具體,進入到微觀和抽象,這時大資料就很重要了。我們更關注社會科學,那是先微觀、具體,再巨集觀、抽象,許小年索性認為巨集觀經濟學是偽科學。如果市場是個體行為的總和,我們原來看到是一張抽象派的畫,看不懂,通過客戶細分慢慢可以形成一張大致看得懂的現實圖景,不過是馬賽克的,再通過微分、甚至定位個人,形成高清圖。我們每一個人現在都生活在零售商的bucket中(前面說的樂購創造了這個概念),最簡單的是高收入、低收入這類反映背景的,再有就是反映行為和生活方式的,如“精打細算”、“右鍵點選一族”(使用右鍵的比較techsavvy)。反過來我們消費者也希望能夠獲得個性化的尊崇,Nobodywantstobenobodytoday。
瞭解並掌握客戶比以往任何時候都更重要。奧巴馬贏在大資料上,就是因為他知道西岸40-49歲女性的男神是喬治·克魯尼,東岸同樣年齡段女性的偶像則是莎拉·傑西卡·帕克(《慾望都市》的主角),他還要更細分,搖擺州每一個郡每一個年齡段每一個時間段在看什麼電視,搖擺州(俄亥俄)1%選民隨時間變化的投票傾向,搖擺選民在Reddit上還是Facebook上,都在其掌握之中。
對於企業來說,要從以產品為中心,轉到以客戶(買單者)甚至使用者(使用者)為中心,從關注使用者背景到關注其行為、意圖和意向,從關注交易形成轉到關注每一個互動點/觸點,使用者是從什麼路徑發現我的產品的,決定之前又做了什麼,買了以後又有什麼反饋,是通過網頁、還是QQ、微博或是微信。
再講第三個,當下。時間是金錢,股票交易就是快魚吃慢魚,用免費股票交易軟體有幾秒的延遲,而佔美國交易量60-70%的高頻程式化交易則要發現毫秒級、低至1美分的交易機會。時間又是生命,美國國家大氣與海洋管理局的超級計算機在日本311地震後9分鐘發出海嘯預警,已經太晚。時間還是機會。現在所謂的購物籃分析用的其實並不是真正的購物籃,而是結帳完的小票,真正有價值的是當顧客還拎著購物籃,在瀏覽、試用、選擇商品的時候,在每一個觸點影響他/她的選擇。資料價值具有半衰期,最新鮮的時候個性化價值最大,漸漸退化到只有集合價值。當下的智慧是從刻舟求劍到見時知幾,原來10年一次的人口普查就是刻舟求劍,而現在東莞一出事百度遷徙圖就反映出來了。當然,當下並不一定是完全準確的,其實如果沒有更多、更久的資料,匆忙對百度遷徙圖解讀是可能陷入誤區的。
第四個,皆明。時間有限,就簡單說了。就是從放馬後炮到料事如神(predictiveanalytics),從料事如神到運籌帷幄(prescriptiveanalytics),只知道有東風是預測分析,確定要借箭的目標、並給出處方利用草船來借,就是處方性分析。我們現在要提高響應度、降低流失率、吸引新客戶,需要處方性分析。
辨訛就是利用多源資料過濾噪聲、查漏補缺和去偽存真。20多個省市的GDP之和超過全國的GDP就是一個例子,我們的GPS有幾十米的誤差,但與地圖資料結合就能做到精確,GPS在城市的高樓中沒有訊號,可以與慣性導航結合。
曉意涉及到大資料下的機器智慧,是個大問題,也不展開了。貼一段我的文章:有人說在涉及“曉意”的領域人是無法替代的。這在前大資料時代是事實。《點球成金(Moneyball)》講的是數量化分析和預測對棒球運動的貢獻,它在大資料背景下出現了傳播的誤區:一、它其實不是大資料,而是早已存在的資料思維和方法;二、它刻意或無意忽略了球探的作用。從讀者看來,奧克蘭競技隊的總經理比利·比恩用數量化分析取代了球探。而事實是,在運用數量化工具的同時,比恩也增加了球探的費用,軍功章裡有機器的一半,也有人的一半,因為球探對運動員定性指標(如競爭性、抗壓力、意志力等)的衡量是少數結構化量化指標無法刻畫的。大資料改變了這一切。人的數字足跡的無意識記錄,以及機器學習(尤其是深度學習)曉意能力的增強,可能逐漸改變機器的劣勢。今年我們看到基於大資料的情感分析、價值觀分析和個人刻畫,當這些應用於人力資源,已經或多或少體現了球探承擔的作用。
via:來源:吳甘沙,英特爾中國研究院首席工程師