如何做PB級大資料線上分析?看阿里實踐

老魚筆記發表於2018-05-07

   企業資料每年以PB級甚至上百PB爆炸式增長,越來越大的資料量正為擴大分析策略在企業應用軟體領域的擴充提供了資料基礎,但資料的價值是有時效性的,越早分析越能得到更快的問題反饋或響應,而離線分析缺點顯然是不能及時地利用資料中所蘊含的深層價值,因此,如何針對海量資料進行毫秒級線上分析,就成為挑戰和新興話題。


如何做PB級大資料線上分析?看阿里實踐
▲阿里巴巴集團資料庫事業部資深技術專家佔超群


  佔超群,花名(離哲)來自阿里巴巴集團資料庫事業部資深技術專家,擁有10年資料處理及分析經驗。他表示,最初的資料分析基於OLTP資料庫來做,到了2005年大資料開始興起,2009年Hadoop名聲大噪。眾所周知,Hadoop的設計初衷是儲存與分析離線大資料,資料雖然能被處理,但問題也很多,比如太慢,資料不夠集中等,而阿里生態足夠大,眾多商家和廣告主一直希望利用資料驅動業務,因此,催生了阿里大規模線上化分析訴求,並且阿里集團絕大部分資料業務都是線上化的;最近三年,他也和客戶一起,充分利用阿里雲分析型資料庫的極速低成本能力,驅動外部的公安、物流、營銷、電力等行業客戶實現資料分析線上化;也就有了他在2017中國系統架構師大會上的分享,阿里巴巴大資料分析線上化和開放化的實踐。

  離哲的分享主要有3部分,趨勢、案例及解決方案。

  目前,資料處理呈現出3大重要趨勢,其一是從離線到線上的趨勢,圈裡現在基本都不怎麼提離線分析了,而是在討論線上分析。第二個趨勢是從統計到AI的趨勢,用AI技術去做資料處理不再是未來的事兒,而是現在已經正在發生著。第三個趨勢是線上分析平臺化,支援多樣化的資料如文字、Json、圖片等,實現資料融合、統一、聯合計算。

  他認為,這些趨勢在未來的5年以內,會在中國乃至全球普及,未來資料分析是開放化、線上化的時代。他還指出,對未來企業業務的改造,怎麼樣讓資料部門不再是企業的負擔,而是一種增值,也是個很重要的探索方向。

  PB級大資料線上分析對資料計算的要求不僅要面對越來越大的資料量能被線上計算,更要求實時,幾秒內返回,還可以被介面互動,並且可以讓人人都可以當分析師,同時可以去探索,需要足夠的開放性。

  目前阿里大資料分析線上化和開放化的實踐,主要應用於電商業務、營銷業務、O2O、交通、物流、娛樂、金融、徵信、安全等幾十個場景。涉及營銷管理,安全風控,推薦,預測,洞察等多個方面。


如何做PB級大資料線上分析?看阿里實踐
▲線上分析交通行業應用實踐



如何做PB級大資料線上分析?看阿里實踐
▲線上分析公安行業應用實踐


  在阿里強勢領域電商的應用就不多說,讓人眼睛一亮的是在交通、安全行業的應用。

  最後,是演講中最精華的部分,阿里大資料分析線上化和開放化是怎麼應用的,都在典型業務架構圖中。

如何做PB級大資料線上分析?看阿里實踐

如何做PB級大資料線上分析?看阿里實踐

  架構圖中,我們發現與眾不同的是AnalyticDB,這是阿里自研的大規模高效能分析型資料庫,其實AnalyticDB並不是個新產品。會後,離哲在接受筆者採訪時表示,AnalyticDB在2014年就上雲了,主要目標是做極速低成本的PB級實時資料倉儲。

  AnalyticDB主打三個功能:一、低成本;二、極速分析,包含延遲,併發上做到極速。三、上層提供了足夠好的應用性,讓使用者能像用單機資料庫一樣,絕大部分語言和工具,都能連線。使用者可以通過任何BI工具,甚至excel都能連線上來做分析,其目的是讓阿里的線上分析能力能被使用者以足夠低的成本連線和被使用。

  離哲最後表示,AnalyticDB目標是能讓資料價值被發現,通過資料價值的實時性,資料探索的實時性,去驅動商業變革。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/11310314/viewspace-2153926/,如需轉載,請註明出處,否則將追究法律責任。

相關文章