近日,第十屆中國IDC產業年度大典(IDCC2015)在北京國家會議中心召開。資料中心聯盟大資料工作組組長魏凱出席IDCC2015大會並在大資料應用與安全技術論壇發表主題為《大資料的價值探索與實踐》的精彩演講。

3417eb9bbd59180850ab62

  資料中心聯盟大資料工作組組長魏凱

  以下為演講PPT全文:

3417eb9bbd59180854d401

3417eb9bbd59180854d402

3417eb9bbd59180854d503

3417eb9bbd59180854d504

3417eb9bbd59180854d505

3417eb9bbd59180854d606

3417eb9bbd59180854d607

3417eb9bbd59180854d608

3417eb9bbd59180854d709

3417eb9bbd59180854d70a

3417eb9bbd59180854d80b

3417eb9bbd59180854d80c

3417eb9bbd59180854d80d

3417eb9bbd59180854d90e

3417eb9bbd59180854d90f

3417eb9bbd59180854d910

3417eb9bbd59180854da11

3417eb9bbd59180854da12

3417eb9bbd59180854da13

3417eb9bbd59180854db14

3417eb9bbd59180854db15

3417eb9bbd59180854dc16

3417eb9bbd59180854dc17

3417eb9bbd59180854dc18

3417eb9bbd59180854dc19

3417eb9bbd59180854dd1a

 

 以下為魏凱演講實錄:

大家好,我是資訊通訊研究院的魏凱,我同時在資料中心聯盟大資料工作組工作,今天題目是大資料應用與安全,跟大家探討三部分,一是我們對大資料產業技術發展的概覽,大家做安全的同時對大資料有主要的瞭解,分享一下我們的主要觀點。二是我們院做政策支撐的時候瞭解到的資訊,國家現在在做大資料的國家戰略,工信部大資料產業的十三五規劃的最新進展和政策考慮,有些與安全有關。三是資料中心聯盟和我們院做的與大資料有關的工作,看看大家有沒有結合點。

第一,不管是國內還是國外,大資料這個產業有誰在玩,有三個環節,第一個環節是資料資源,大資料如果沒有資料的話是無米之炊的事情。怎麼來擁有和獲取這些資料,我待會兒會詳細地說每個環節有什麼問題。第二個環節,有了資料以後怎麼用很好的很便宜的系統把它存下來,分散式的叢集把它管起來,用先進的演算法把它挖掘出來。第三個環節是應用和服務的環節,我們從產值的分佈來看是依次在增加,前兩個環節對國內做了一個統計,統計大資料的產值有多大,前兩個環節全球200億美元,中國100億人民幣,如果把第三個環節算上非常大,很多諮詢機構和政府智庫都在評估大資料對國家帶來的經濟效益有多大,大概是GDP的2%,那是非常大的。中國GDP如果乘以2%是非常大的量。大資料整個產業有很強的外部效應。

我詳細說一下每個環節存在什麼問題。第一個環節是資料,我們跟很多做大資料的公司,包括應用部門、技術提供部門都在討論,資料是極度不均衡的,需要資料的人拿不到資料非常著急,結構性短缺問題非常嚴重,其實每個企業的資料都在暴增,書到用時方恨少,資料也是一樣的,有這樣一個現象就是結構性短缺。結構性短缺有兩個不正常的狀態,兩個極端,一個極端是很多希望拿到資料的,比如銀行希望拿到客戶的資料對資料進行精準的分析,做徵信的評估,但很難從各個渠道獲取很全的資料。要資料的人拿不到,資料死鎖在政府部門,死鎖在資料擁有的企業手裡。另外是無序的,黑市上的資料交易非常多,個人資訊的洩露經常發生。我們覺得是兩個極端現象,是不正常的現象,應該是中間狀態,像水龍頭一樣,需要的時候開,不需要的時候關掉,這應該是有序流動的狀態,這是一個理想狀態,但現在做不到。

企業獲取資料非常困難,不光是小企業,大企業也一樣,這裡列舉了幾種,一些大銀行、大企業獲取資料都有什麼招術。有七八種招術,跟別人合作,自己建平臺,建電商平臺,獲取政府開放的資料。跟企業合作成本是非常高的,你想買資料,有資料的人是很猶豫的,擔心產權糾紛。等資料開放是等不起的,國家在綱要裡提了2018年要建一個大資料的統一開放平臺,阻力非常大。資料的獲取非常成問題。交易所是非常好的途徑,各地每個月都會成立一個大資料交易所,地方政府領導非常熱衷於交易所的成立,現在執行在制度真空的條件下非常令人擔憂,裡面有很多問題,特別是權力、責任、利益的分割,在資料交易的事情裡沒有清晰地討論清楚,基本是建立在沙灘蓋樓的狀態,很多理論上的問題沒有解決,比如產權的界定很模糊。這是我們看到的資料的問題。

大資料技術,2000年左右到現在技術更替非常快,特別是底層技術沒幾年就會來一輪新的變化,我們認為大概經歷了三個階段,九十年代很多企業做資料分析都是用原來的資料庫,這種情況下成本非常高,2000年左右,谷歌等大的網際網路公司發明了新技術,用Hadoop,用非關係型資料庫做資料分析,解放了很多限制,一下子把工程師的思路開啟了,可以放鬆一致性的要求,讓我的吞吐量變得非常高,成本下降非常快,這是NoSQL的興起。2010年以後,在網際網路公司的教育下,傳統企業認識到大資料的平臺對他是有價值的,對他在未來是有戰略性的事情。對傳統公司、傳統行業來說,大資料的門檻非常高,因為他們沒有Hadoop的程式設計師,沒有NoSQL的程式設計師,應用還是跑在SQL上,沒有辦法遷移到JAVA平臺說,應用起來慣性非常強。2010年以後討論最多的就是怎麼給Hadoop加上SQL介面,讓分散式的平臺能相容以前的使用習慣,甚至讓應用無感知地運營在Hadoop上,這是第三個階段的輪迴,放棄了Hadoop。現在更熱的是把Hadoop當做資料庫來用,不管企業級軟體還是應用開發很重要的方向。

產業裡的第三個環節是應用,我們看到的情況是網際網路很熱,因為網際網路這些技術、模式、理念都來源於網際網路,天然是很熱的。網際網路+是網際網路這些公司把新的技術往其他行業推的一個過程,其他行業還是處於非常早期的階段、摸索的階段、證明大資料價值的階段,我還沒有看到很多很成熟的案例出來,網際網路是一個領先的狀態。第二個熱的是政府,很多政府搞招商引資,搞園區建設,政府有很強的衝動去做大資料產業,特別是經濟落後的地方,很多地方覺得這是彎道超車的機會。

行業應用到底怎麼樣?行業應用是大資料產業的中間環節,只有各個行業應用得好,大資料整個產業才能起來。行業應用現在還處於小學一年級的階段,運營商、銀行他們僅僅是大規模商用的系統,主要是把歷史賬單歸攏起來。以前銀行查個歷史賬單要等一週的時間,提個申請,他給你弄個指示。現在實時可以查開戶以來的歷史賬單。做到這一點很不容易,他要把歷史上的磁碟上存的弄到Hadoop做查詢,這是第一步,有了這一步後面做很多事情就方便了,但仍然是在這個過程中,未來的藍圖是給使用者畫像,傳統行業剛剛開始,因為資料的問題。他的精準營銷、風險管控,兩個維度,一個維度需要更多的外部資料跟內部資料耦合,另外一個維度是更高階的分析技術和平臺支援,兩個維度同時進步才能產生更高階進步的價值,這是我們對於行業應用的認識。

剛才說了產業的觀察,說一下我們對於政策的展望。2015年國家出臺了與資訊科技有關的國務院頂層檔案是最多的,與大資料直接有關的是兩個,運用大資料加強市場主體服務和監管的檔案,這主要是對內的政府怎麼做信用評級、做市場監管。第二是綱領性檔案,怎麼全域性地促進大資料的發展。綱領性檔案裡的主要內容都有哪些?大的是一個目標,現在政府部門的領導認識到中國是一個資料大國,不是資料強國,這個檔案主要的核心意思是怎麼把中國變成資料強國。

有三方面內容,一是要推動政府資料的開放和共享,兩個層面,一個是對外開放,另一個是政府之間的共享。第二是怎麼做大做強產業,不要十年後再喊去IOE,大資料裡不能再沒有自己的位置。第三是安全。

前面我簡單回顧了產業和政策的情況。第三部分是我們的團隊做什麼。中國資訊通訊研究院是工信部下屬的事業單位,是政府政策支撐的部門,我們參與了很多重要的大資料相關檔案制定,不光是大資料,第50個國務院檔案裡我們院起草了四個,這是對上的。我們在資料中心聯盟下做產業急需的事情,有幾方面跟大資料有關,一是我們跟廠商、使用者單位一起制定大資料相關產品的規範、評測的方法,希望通過這個手段提高我們國內大資料產品的水平。二是合規地推動資料的跨行業、跨部門的流動,在做一些嘗試,後面會陸續釋出很多成果在資料交易和流通方面。另外是人才培訓。

今天主要講一下我們在產品標準方面的情況。2015年年初到年末我們做了兩個標準,一個是大資料平臺的基準測試,技術要求和評測方法,這個標準主要內容是我們把大資料整個產品體系分成三個層次,第一個層次是基礎平臺類的產品,第二個層次是資料管理平臺,資料治理、資料管理、資料資源的統一檢視,第三是最上層的BI工具及其他視覺化工具,現在開展標準化的工作在底下的基礎平臺方面。我們經過很多大量的調研,從幾方面提出來,一是可用性,產品應該有很高的可用性。二是架構的相容,應該跟傳統的應用架構互操作。三是很高的價效比,很好的線性水平擴充套件,這是非常重要的特性。

安全性,主要是資料加密、許可權管理、資料安全保護。易用性,企業運維的成本非常高,大家要很簡易地部署。災備和應用連續性的要求。這是我們產品標準定義方面的情況。2015年5月、7月組織第一輪測試,大家看到這幾個廠商的名字是比較大牌的,參與了我們這個測試,也創造了很多第一,首次在統一的平臺上做商業產品的測試。我們第二輪測試正在報名,如果你有大資料產品和服務的話,歡迎和我們聯絡,一塊參與到標準和評測的活動中來,這個評測活動會持續到3月份完成,4月份會在高階的大會上公開發布評測結果。歡迎大家跟我們一塊來推動。