199IT資料中心微信賬戶:i199IT
大資料已成為媒體與大眾關注的新技術,大資料的應用也預示著資訊時代將進入一個新階段,但人們對大資料的認識有一個不斷加深的過程。首先從“資訊時代新階段”、資料文化和認識論的高度闡述了對大資料的理解;接著通過對驅動效益和大成智慧的解釋,探討了如何正確認識大資料的價值和效益,並從複雜性的角度分析了大資料研究和應用面臨的挑戰;最後對發展大資料應避免的誤區提出幾點看法。
1 大資料興起預示“資訊時代”進入新階段
1.1 看待大資料要有歷史性的眼光
資訊時代是相對於農業和工業時代而言的一段相當長的時間。不同時代的生產要素和社會發展驅動力有明顯差別。資訊時代的標誌性技術發明是數字計算機、積體電路、光纖通訊和網際網路(全球資訊網)。儘管媒體上大量出現“大資料時代”的說法,但大資料、雲端計算等新技術目前還沒有出現與上述劃時代的技術發明可媲美的技術突破,難以構成一個超越資訊時代的新時代。資訊時代可以分成若干階段,大資料等新技術的應用標誌著資訊社會將進入一個新階段。
考察分析100年以上的歷史長河可以發現,資訊時代與工業時代的發展規律有許多相似之處。電氣化時代與資訊時代生產率的提高過程驚人地相似。都是經過20~30年擴散儲備之後才有明顯提高,分界線分別是1915年和1995年[1]。筆者猜想,資訊科技經過幾十年的擴散儲備後,21世紀的前30年可能是資訊科技提高生產率的黃金時期。
1.2 從“資訊時代新階段”的高度認識“大資料”
中國已開始進入資訊時代,但許多人的思想還停留在工業時代。經濟和科技工作中出現的許多問題,其根源是對時代的認識不到位。18-19世紀中國落後捱打,根源是滿清政府沒有認識到時代變了,我們不能重犯歷史性的錯誤。
中央提出中國進入經濟“新常態”以後,媒體上有很多討論,但多數是為經濟增速降低做解釋,很少有從時代改變的角度論述“新常態”的文章。筆者認為,經濟新常態意味著中國進入了以資訊化帶動新型工業化、城鎮化和農業現代化的新階段,是經濟和社會管理的躍遷,不是權宜之計,更不是倒退。
大資料、移動網際網路、社交網路、雲端計算、物聯網等新一代資訊科技構成的IT架構“第三平臺”是資訊社會進入新階段的標誌,對整個經濟的轉型有引領和帶動作用。媒體上經常出現的網際網路+、創客、“第二次機器革命”、“工業4.0”等都與大資料和雲端計算有關。大資料和雲端計算是新常態下提高生產率的新槓桿,所謂創新驅動發展就是主要依靠資訊科技促進生產率的提高。
1.3 大資料可能是中國資訊產業從跟蹤走向引領的突破口
中國的大資料企業已經有相當好的基礎。全球十大網際網路服務企業中國佔有4席(阿里巴巴、騰訊、百度和京東),其他6個Top10 網際網路服務企業全部是美國企業,歐洲和日本沒有網際網路企業進入Top10。這說明中國企業在基於大資料的網際網路服務業務上已處於世界前列。在發展大資料技術上,我國有可能改變過去30年技術受制於人的局面,在大資料應用上中國有可能在全世界起到引領作用。
但是,企業的規模走在世界前列並不表示我國在大資料技術上領先。實際上,國際上目前流行的大資料主流技術沒有一項是我國開創的。開源社群和眾包是發展大資料技術和產業的重要途徑,但我們對開源社群的貢獻很小,在全球近萬名社群核心志願者中,我國可能不到200名。我們要吸取過去基礎研究為企業提供核心技術不夠的教訓,加強大資料基礎研究和前瞻技術研究,努力攻克大資料核心和關鍵技術。
2 理解大資料需要上升到文化和認識論的高度
2.1 資料文化是一種先進文化
資料文化的本質是尊重客觀世界的實事求是精神,資料就是事實。重視資料就是強呼叫事實說話、按理性思維的科學精神。中國人的傳統習慣是定性思維而不是定量思維。目前許多城市在開展政府資料開放共享工作,但是發現多數老百姓對政府要開放的資料並不感興趣。要讓大資料走上健康的發展軌道,首先要大力弘揚資料文化。本文講的資料文化不只是大資料用於文藝、出版等文化產業,而是指全民的資料意識。全社會應認識到:資訊化的核心是資料,只有政府和大眾都關注資料時,才能真正理解資訊化的實質;資料是一種新的生產要素,大資料的利用可以改變資本和土地等傳統要素在經濟中的權重。
有人將“上帝與資料共舞”歸納為美國文化的特點之一,說的是美國人既有對神的誠意,又有通過資料求真的理性。美國從鍍金時代到進步主義時期完成了資料文化的思維轉變,南北戰爭之後人口普查的方法被應用到很多領域,形成了資料預測分析的思維方式。近百年來美國和西方各國的現代化與資料文化的傳播滲透有密切關係,我國要實現現代化也必須強調資料文化。
提高資料意識的關鍵是要理解大資料的戰略意義。資料是與物質、能源一樣重要的戰略資源,資料的採集和分析涉及每一個行業,是帶有全域性性和戰略性的技術。從硬技術到軟技術的轉變是當今全球性的技術發展趨勢,而從資料中發現價值的技術正是最有活力的軟技術,資料技術與資料產業的落後將使我們像錯過工業革命機會一樣延誤一個時代。
2.2 理解大資料需要有正確的認識論
歷史上科學研究是從邏輯演繹開始的,歐幾里得幾何的所有定理可從幾條公理推匯出來。從伽利略和牛頓開始,科學研究更加重視自然觀察和實驗觀察,在觀察基礎上通過歸納方法提煉出科學理論,“科學始於觀察”成為科學研究和認識論的主流。經驗論和唯理論這兩大流派都對科學的發展做出過重大貢獻,但也暴露出明顯的問題,甚至走入極端。理性主義走向極端就成為康德所批判的獨斷主義,經驗主義走入極端就變成懷疑論和不可知論[2]。
20世紀30年代,德國哲學家波普爾提出了被後人稱為“證偽主義”的認識論觀點,他認為科學理論不能用歸納法證實,只能被試驗發現的反例“證偽”,因而他否定科學始於觀察,提出“科學始於問題”的著名觀點[3]。證偽主義有其侷限性,如果嚴格遵守證偽法則,萬有引力定律、原子論等重要理論都可能被早期的所謂反例扼殺。但“科學始於問題”的觀點對當前大資料技術的發展有指導意義。
大資料的興起引發了新的科學研究模式:“科學始於資料”。從認識論的角度看,大資料分析方法與“科學始於觀察”的經驗論較為接近,但我們要牢記歷史的教訓,避免滑入否定理論作用的經驗主義泥坑。在強調“相關性”的時候不要懷疑“因果性”的存在;在宣稱大資料的客觀性、中立性的時候,不要忘了不管資料的規模如何,大資料總會受制於自身的侷限性和人的偏見。不要相信這樣的預言:“採用大資料探勘,你不需要對資料提出任何問題,資料就會自動產生知識”。面對像大海一樣的巨量資料,從事資料探勘的科技人員最大的困惑是,我們想撈的“針”是什麼?這海里究竟有沒有“針”?也就是說,我們需要知道要解決的問題是什麼。從這個意義上講,“科學始於資料”與“科學始於問題”應有機地結合起來。
對“原因”的追求是科學發展的永恆動力。但是,原因是追求不完的,人類在有限的時間內不可能找到“終極真理”。在科學的探索途中,人們往往用“這是客觀規律”解釋世界,並不立即追問為什麼有這樣的客觀規律。也就是說,傳統科學並非只追尋因果性,也可以用客觀規律作為結論。大資料研究的結果多半是一些新的知識或新的模型,這些知識和模型也可以用來預測未來,可以認為是一類區域性性的客觀規律。科學史上通過小資料模型發現一般性規律的例子不少,比如開普勒歸納的天體運動規律等;而大資料模型多半是發現一些特殊性的規律。物理學中的定律一般具有必然性,但大資料模型不一定具有必然性,也不一定具有可演繹性。大資料研究的物件往往是人的心理和社會,在知識階梯上位於較高層,其自然邊界是模糊的,但有更多的實踐特徵。大資料研究者更重視知行合一,相信實踐論。大資料認識論有許多與傳統認識論不同的特點,我們不能因其特點不同就否定大資料方法的科學性。大資料研究挑戰了傳統認識論對因果性的偏愛,用資料規律補充了單一的因果規律,實現了唯理論和經驗論的資料化統一,一種全新的大資料認識論正在形成。
3 正確認識大資料的價值和效益
3.1 大資料的價值主要體現為它的驅動效應
人們總是期望從大資料中挖掘出意想不到的“大價值”。實際上大資料的價值主要體現在它的驅動效應,即帶動有關的科研和產業發展,提高各行各業通過資料分析解決困難問題和增值的能力。大資料對經濟的貢獻並不完全反映在大資料公司的直接收入上,應考慮對其他行業效率和質量提高的貢獻。大資料是典型的通用技術,理解通用技術要採用“蜜蜂模型”:蜜蜂的效益主要不是自己釀的蜂蜜,而是蜜蜂傳粉對農業的貢獻。
電子計算機的創始人之一馮·諾依曼曾指出:“在每一門科學中,當通過研究那些與終極目標相比頗為樸實的問題,發展出一些可以不斷加以推廣的方法時,這門學科就得到了巨大的進展。”我們不必天天期盼奇蹟出現,多做一些“頗為樸實”的事情,實際的進步就在紮紮實實的努力之中。媒體喜歡宣傳一些令人驚奇的大資料成功案例,對這些案例我們應保持清醒的頭腦。據Intel中國研究院首席工程師吳甘沙在一次報告中透露,所謂“啤酒加尿布”的資料探勘經典案例,其實是Teradata公司一位經理編出來的“故事”,歷史上並沒有發生過[4]。即使有這個案例,也不說明大資料分析本身有什麼神奇,大資料中看起來毫不相關的兩件事同時或相繼出現的現象比比皆是,關鍵是人的分析推理找出為什麼兩件事物同時或相繼出現,找對了理由才是新知識或新發現的規律,相關性本身並沒有多大價值。
有一個家喻戶曉的寓言可以從一個角度說明大資料的價值:一位老農民臨終前告訴他的3個兒子,他在他家的地中埋藏了一罐金子,但沒有講埋在哪裡。
他的兒子們把他家所有的地都深挖了一遍,沒有挖到金子,但由於深挖了土地,從此莊稼收成特別好。資料收集、分析的能力提高了,即使沒有發現什麼普適的規律或令人完全想不到的新知識,大資料的價值也已逐步體現。
3.2 大資料的力量來自“大成智慧”
每一種資料來源都有一定的侷限性和片面性,只有融合、整合各方面的原始資料,才能反映事物的全貌。事物的本質和規律隱藏在各種原始資料的相互關聯之中。不同的資料可能描述同一實體,但角度不同。對同一個問題,不同的資料能提供互補資訊,可對問題有更深入的理解。因此在大資料分析中,彙集儘量多種來源的資料是關鍵。
資料科學是數學(統計、代數、拓撲等)、電腦科學、基礎科學和各種應用科學融合的科學,類似錢學森先生提出的“大成智慧學”[5]。錢老指出:“必集大成,才能得智慧”。大資料能不能出智慧,關鍵在於對多種資料來源的整合和融合。IEEE計算機學會最近釋出了2014年的計算機技術發展趨勢預測報告,重點強調“無縫智慧(seamless intelligence)”。發展大資料的目標就是要獲得協同融合的“無縫智慧”。單靠一種資料來源,即使資料規模很大,也可能出現“瞎子摸象”一樣的片面性。資料的開放共享不是錦上添花的工作,而是決定大資料成敗的必要前提。
大資料研究和應用要改變過去各部門和各學科相互分割、獨立發展的傳統思路,重點不是支援單項技術和單個方法的發展,而是強調不同部門、不同學科的協作。資料科學不是垂直的“煙囪”,而是像環境、能源科學一樣的橫向整合科學。
3.3 大資料遠景燦爛,但近期不能期望太高
交流電問世時主要用作照明,根本想象不到今天無處不在的應用。大資料技術也一樣,將來一定會產生許多現在想不到的應用。我們不必擔心大資料的未來,但近期要非常務實地工作。人們往往對近期的發展估計過高,而對長期的發展估計不足。Gartner公司預測,大資料技術要在5~10年後才會成為較普遍採用的主流技術,對發展大資料技術要有足夠的耐心。
大資料與其他資訊科技一樣,在一段時間內遵循指數發展規律。指數發展的特點是,從一段歷史時期衡量(至少30年),前期發展比較慢,經過相當長時間(可能需要20年以上)的積累,會出現一個拐點,過了拐點以後,就會出現爆炸式的增長。但任何技術都不會永遠保持“指數性”增長,一般而言,高技術發展遵循Gartner公司描述的技術成熟度曲線(hype cycle),最後可能進入良性發展的穩定狀態或者走向消亡。
需要採用大資料技術來解決的問題往往都是十分複雜的問題,比如社會計算、生命科學、腦科學等,這些問題絕不是幾代人的努力就可以解決的。宇宙經過百億年的演化,才出現生物和人類,其複雜和巧妙堪稱絕倫,不要指望在我們這一代人手中就能徹底揭開其奧妙。展望數百萬年甚至更長遠的未來,大資料技術只是科學技術發展長河中的一朵浪花,對10~20年大資料研究可能取得的科學成就不能抱有不切實際的幻想。
4 從複雜性的角度看大資料研究和應用面臨的挑戰
大資料技術和人類探索複雜性的努力有密切關係。20世紀70年代,新三論(耗散結構論、協同論、突變論)的興起對幾百年來貫穿科學技術研究的還原論發起了挑戰。1984年蓋爾曼等3位諾貝爾獎得主成立以研究複雜性為主的聖菲研究所,提出超越還原論的口號,在科技界掀起了一場複雜性科學運動。雖然雷聲很大,但30年來並未取得預期的效果,其原因之一可能是當時還沒有出現解決複雜性的技術。
積體電路、計算機與通訊技術的發展大大增強了人類研究和處理複雜問題的能力。大資料技術將複雜性科學的新思想發揚光大,可能使複雜性科學得以落地。複雜性科學是大資料技術的科學基礎,大資料方法可以看作複雜性科學的技術實現。大資料方法為還原論與整體論的辯證統一提供了技術實現途徑。大資料研究要從複雜性研究中吸取營養,從事資料科學研究的學者不但要了解20世紀的“新三論”,可能還要學習與超迴圈、混沌、分形和元胞自動機等理論有關的知識,擴大自己的視野,加深對大資料機理的理解。
大資料技術還不成熟,面對海量、異構、動態變化的資料,傳統的資料處理和分析技術難以應對,現有的資料處理系統實現大資料應用的效率較低,成本和能耗較大,而且難以擴充套件。這些挑戰大多來自資料本身的複雜性、計算的複雜性和資訊系統的複雜性。
4.1 資料複雜性引起的挑戰
圖文檢索、主題發現、語義分析、情感分析等資料分析工作十分困難,其原因是大資料涉及複雜的型別、複雜的結構和複雜的模式,資料本身具有很高的複雜性。目前,人們對大資料背後的物理意義缺乏理解,對資料之間的關聯規律認識不足,對大資料的複雜性和計算複雜性的內在聯絡也缺乏深刻理解,領域知識的缺乏制約了人們對大資料模型的發現和高效計算方法的設計。形式化或定量化地描述大資料複雜性的本質特徵及度量指標,需要深入研究資料複雜性的內在機理。人腦的複雜性主要體現在千萬億級的樹突和軸突的連結,大資料的複雜性主要也體現在資料之間的相互關聯。理解資料之間關聯的奧祕可能是揭示微觀到巨集觀“湧現”規律的突破口。大資料複雜性規律的研究有助於理解大資料複雜模式的本質特徵和生成機理,從而簡化大資料的表徵,獲取更好的知識抽象。為此,需要建立多模態關聯關係下的資料分佈理論和模型,理清資料複雜度和計算複雜度之間的內在聯絡,奠定大資料計算的理論基礎。
4.2 計算複雜性引起的挑戰
大資料計算不能像處理小樣本資料集那樣做全域性資料的統計分析和迭代計算,在分析大資料時,需要重新審視和研究它的可計算性、計算複雜性和求解演算法。大資料樣本量巨大,內在關聯密切而複雜,價值密度分佈極不均衡,這些特徵對建立大資料計算正規化提出了挑戰。對於PB級的資料,即使只有線性複雜性的計算也難以實現,而且,由於資料分佈的稀疏性,可能做了許多無效計算。
傳統的計算複雜度是指某個問題求解時需要的時間空間與問題規模的函式關係,所謂具有多項式複雜性的演算法是指當問題的規模增大時,計算時間和空間的增長速度在可容忍的範圍內。傳統科學計算關注的重點是,針對給定規模的問題,如何“算得快”。而在大資料應用中,尤其是流式計算中,往往對資料處理和分析的時間、空間有明確限制,比如網路服務如果回應時間超過幾秒甚至幾毫秒,就會丟失許多使用者。大資料應用本質上是在給定的時間、空間限制下,如何“算得多”。從“算得快”到“算得多”,考慮計算複雜性的思維邏輯有很大的轉變。所謂“算得多”並不是計算的資料量越大越好,需要探索從足夠多的資料,到剛剛好的資料,再到有價值的資料的按需約簡方法。
基於大資料求解困難問題的一條思路是放棄通用解,針對特殊的限制條件求具體問題的解。人類的認知問題一般都是NP難問題,但只要資料充分多,在限制條件下可以找到十分滿意的解,近幾年自動駕駛汽車取得重大進展就是很好的案例。為了降低計算量,需要研究基於自舉和取樣的區域性計算和近似方法,提出不依賴於全量資料的新型演算法理論,研究適應大資料的非確定性演算法等理論。
4.3 系統複雜性引起的挑戰
大資料對計算機系統的執行效率和能耗提出了苛刻要求,大資料處理系統的效能評價與優化問題具有挑戰性,不但要求理清大資料的計算複雜性與系統效率、能耗間的關係,還要綜合度量系統的吞吐率、並行處理能力、作業計算精度、作業單位能耗等多種效能因素。針對大資料的價值稀疏性和訪問弱區域性性的特點,需要研究大資料的分散式儲存和處理架構。
大資料應用涉及幾乎所有的領域,大資料的優勢是能在長尾應用中發現稀疏而珍貴的價值,但一種優化的計算機系統結構很難適應各種不同的需求,碎片化的應用大大增加了資訊系統的複雜性,像昆蟲種類一樣多(500多萬種)的大資料和物聯網應用如何形成手機一樣的巨大市場,這就是所謂“昆蟲綱悖論”[6]。為了化解計算機系統的複雜性,需要研究異構計算系統和可塑計算技術。
大資料應用中,計算機系統的負載發生了本質性變化,計算機系統結構需要革命性的重構。資訊系統需要從資料圍著處理器轉改變為處理能力圍著資料轉,關注的重點不是資料加工,而是資料的搬運;系統結構設計的出發點要從重視單任務的完成時間轉變到提高系統吞吐率和並行處理能力,併發執行的規模要提高到10億級以上。構建以資料為中心的計算系統的基本思路是從根本上消除不必要的資料流動,必要的資料搬運也應由“大象搬木頭”轉變為“螞蟻搬大米”。
5 發展大資料應避免的誤區
5.1 不要一味追求“資料規模大”
大資料主要難點不是資料量大,而是資料型別多樣、要求及時回應和原始資料真假難辨。現有資料庫軟體解決不了非結構化資料,要重視資料融合、資料格式的標準化和資料的互操作。採集的資料往往質量不高是大資料的特點之一,但儘可能提高原始資料的質量仍然值得重視。腦科學研究的最大問題就是採集的資料可信度差,基於可信度很差的資料難以分析出有價值的結果。
一味追求資料規模大不僅會造成浪費,而且效果未必很好。多個來源的小資料的整合融合可能挖掘出單一來源大資料得不到的大價值。應多在資料的融合技術上下功夫,重視資料的開放與共享。所謂資料規模大與應用領域有密切關係,有些領域幾個PB的資料未必算大,有些領域可能幾十TB已經是很大的規模。
發展大資料不能無止境地追求“更大、更多、更快”,要走低成本、低能耗、惠及大眾、公正法治的良性發展道路,要像現在治理環境汙染一樣,及早關注大資料可能帶來的“汙染”和侵犯隱私等各種弊端。
5.2 不要“技術驅動”,要“應用為先”
新的資訊科技層出不窮,資訊領域不斷冒出新概念、新名詞,估計繼“大資料”以後,“認知計算”、“可穿戴裝置”、“機器人”等新技術又會進入炒作高峰。我們習慣於跟隨國外的熱潮,往往不自覺地跟著技術潮流走,最容易走上“技術驅動”的道路。實際上發展資訊科技的目的是為人服務,檢驗一切技術的唯一標準是應用。我國發展大資料產業一定要堅持“應用為先”的發展戰略,堅持應用牽引的技術路線。技術有限,應用無限。各地發展雲端計算和大資料,一定要通過政策和各種措施調動應用部門和創新企業的積極性,通過跨界的組合創新開拓新的應用,從應用中找出路。
5.3 不能拋棄“小資料”方法
流行的“大資料”定義是:無法通過目前主流軟體工具在合理時間內採集、儲存、處理的資料集。這是用不能勝任的技術定義問題,可能導致認識的誤區。按照這種定義,人們可能只會重視目前解決不了的問題,如同走路的人想踩著自己身前的影子。其實,目前各行各業碰到的資料處理多數還是“小資料”問題。我們應重視實際碰到的問題,不管是大資料還是小資料。
統計學家們花了200多年,總結出認知資料過程中的種種陷阱,這些陷阱不會隨著資料量的增大而自動填平。大資料中有大量的小資料問題,大資料採集同樣會犯小資料採集一樣的統計偏差。Google公司的流感預測這兩年失靈,就是由於搜尋推薦等人為的干預造成統計誤差。
大資料界流行一種看法:大資料不需要分析因果關係、不需要取樣、不需要精確資料。這種觀念不能絕對化,實際工作中要邏輯演繹和歸納相結合、白盒與黑盒研究相結合、大資料方法與小資料方法相結合。
5.4 要高度關注構建大資料平臺的成本
目前全國各地都在建設大資料中心,呂梁山下都建立了容量達2 PB以上的資料處理中心,許多城市公安部門要求儲存3個月以上的高清監控錄影。這些系統的成本都非常高。資料探勘的價值是用成本換來的,不能不計成本,盲目建設大資料系統。什麼資料需要儲存,要儲存多少時間,應當根據可能的價值和所需的成本來決定。大資料系統技術還在研究之中,美國的E級超級計算機系統要求能耗降低1 000倍,計劃到2024年才能研製出來,用現在的技術構建的巨型系統能耗極高。
我們不要攀比大資料系統的規模,而是要比實際應用效果,比完成同樣的事消耗更少的資源和能量。先抓老百姓最需要的大資料應用,因地制宜發展大資料。發展大資料與實現資訊化的策略一樣:目標要遠大、起步要精準、發展要快速。
作者,李國傑,男,博士,中國工程院院士。現任中國科學院計算技術所首席科學家,曙光資訊產業股份有限公司董事長,中國計算機學會名譽理事長,國家資訊化專家諮詢委員會資訊科技與新興產業專委會副主任,中國科學院學位委員會副主席,中國科學院大學計算機與控制學院院長,中國科學技術大學電腦科學與技術學院院長等。
以下為《對大資料的再認識》報告PPT全文:
CCF大資料專家委員會
http://www.bigdataforum.org.cn/a/weiyuandongtai/2015/0605/135.html