第五屆中國雲端計算大會學習收穫(大資料)

weixin_34370347發表於2013-06-08

第五屆中國雲端計算大會學習收穫(大資料)

張頲 2013/06/06 http://idata.blog.51cto.com

第五屆雲端計算大會於65日至67日在北京召開。本文是66日大資料主題收穫。

雲端計算和大資料

雲端計算商業模式注重硬體裝置的使用效率,通過延長裝置利用率達到節約投資的目的,例如,伺服器的虛擬化。大資料商業模式旨在從海量資料中提取有價值的資訊。雲端計算和大資料結合的意義在於用較低的成本解決大資料的難題。雲端計算技術和大資料技術殊途同歸,水到渠成,未來的發展趨勢就是融合。這也是業務系統和分析系統融合的趨勢。

大資料和商業智慧

記憶體計算和分散式計算是傳統商業智慧領域不夠重視的兩項關鍵技術。大資料平臺較商業智慧不僅僅是資料量上的提升,也包括實時性的提升。例如百度的後臺有大量的資料,搜尋結果卻是低延遲的。分析結果以毫秒計,穩定可靠,這和業務系統又有何分別呢?換個角度看,商業智慧系統吸引分析師使用者越多越好,大資料平臺則是與之對接的業務越多越好。商業智慧系統可以做為大資料平臺的一部分繼續存在,分析師仍然是大數平臺的使用者,但是人數上會成為少數,大資料平臺的價值更多的會是體現在業務方面。會上看到一個查汽車套牌的例子,如果能夠通過分析攝像頭資料迅速查到相同的車牌的汽車,那麼抓套牌汽車就變得容易了。大資料平臺還可用於追蹤破案,在大資料分析的幫助下,某持槍傷人案件10小時就破了。其他還有廣告主實時監測廣告投放效果的例子。還有提到民航業的應用案例是關於提高旅客忠誠度的。

第四正規化

科學實驗是第一正規化。第二正規化是推理。計算機模擬模擬被視為第三正規化。通過對大資料的分析得出結論不需要抽樣,基於全量資料進行統計就好,這是第四正規化。在利用大資料進行預測時,重點分析相關性,例如,流感爆發和搜尋流感症狀的次數呈現了相關性,可用於預報。需要注意的是相關和因果不是一回事。

他山之石

這次重點聽了百度、中國移動和阿里的分享。百度大資料首席架構師的分享讓我感到程式設計師的重要性,演算法是核心,並且通過線上實驗的效果來決定演算法演化方向。中國移動大雲專案負責人的分享看來他們的大資料技術研究是正在進行時,現存系統仍然是以報表為中心的商業智慧模式,注意到他們的系統重新整理報表已經做到秒級。中國移動建立大資料平臺的難點不在技術,難點在於資料從分散到集中的管理阻力。阿里大資料平臺令人印象深刻,他們從一開始的目標就是開放的平臺,終極目標是向社會開放,目前只是做到了對企業內部的開放。阿里大資料平臺團隊的目標是為別人挖掘資料價值提供方便。我覺得阿里大資料平臺團隊有這麼幾項重要工作:一是維護後設資料,後設資料不僅僅是記錄資料含義,還描述資料表之間的血緣關係,並且使用資料需要建立者授權;二是建立排程體系,內建一些端到端的通用的程式;三是管理資料質量、一次清洗大家受益;另外還提供一些工具,例如SQL介面、資料同步等。阿里大資料平臺開放模式的好處是有業務部門的參與,資料探勘效果較好;不好之處是資料膨脹,其大資料平臺上的資料表個數超過一百萬,再考慮到分庫的因素,得有幾百萬,而且這個增長趨勢還在繼續。這讓我感到對於開放的大資料平臺,處理資料膨脹也許比處理資料安全的代價還要高。

相關文章