如何做PB級大資料線上分析?看阿里實踐
企業資料每年以PB級甚至上百PB爆炸式增長,越來越大的資料量正為擴大分析策略在企業應用軟體領域的擴充提供了資料基礎,但資料的價值是有時效性的,越早分析越能得到更快的問題反饋或響應,而離線分析缺點顯然是不能及時地利用資料中所蘊含的深層價值,因此,如何針對海量資料進行毫秒級線上分析,就成為挑戰和新興話題。
佔超群,花名(離哲)來自阿里巴巴集團資料庫事業部資深技術專家,擁有10年資料處理及分析經驗。他表示,最初的資料分析基於OLTP資料庫來做,到了2005年大資料開始興起,2009年Hadoop名聲大噪。眾所周知,Hadoop的設計初衷是儲存與分析離線大資料,資料雖然能被處理,但問題也很多,比如太慢,資料不夠集中等,而阿里生態足夠大,眾多商家和廣告主一直希望利用資料驅動業務,因此,催生了阿里大規模線上化分析訴求,並且阿里集團絕大部分資料業務都是線上化的;最近三年,他也和客戶一起,充分利用阿里雲分析型資料庫的極速低成本能力,驅動外部的公安、物流、營銷、電力等行業客戶實現資料分析線上化;也就有了他在2017中國系統架構師大會上的分享,阿里巴巴大資料分析線上化和開放化的實踐。
離哲的分享主要有3部分,趨勢、案例及解決方案。
目前,資料處理呈現出3大重要趨勢,其一是從離線到線上的趨勢,圈裡現在基本都不怎麼提離線分析了,而是在討論線上分析。第二個趨勢是從統計到AI的趨勢,用AI技術去做資料處理不再是未來的事兒,而是現在已經正在發生著。第三個趨勢是線上分析平臺化,支援多樣化的資料如文字、Json、圖片等,實現資料融合、統一、聯合計算。
他認為,這些趨勢在未來的5年以內,會在中國乃至全球普及,未來資料分析是開放化、線上化的時代。他還指出,對未來企業業務的改造,怎麼樣讓資料部門不再是企業的負擔,而是一種增值,也是個很重要的探索方向。
PB級大資料線上分析對資料計算的要求不僅要面對越來越大的資料量能被線上計算,更要求實時,幾秒內返回,還可以被介面互動,並且可以讓人人都可以當分析師,同時可以去探索,需要足夠的開放性。
目前阿里大資料分析線上化和開放化的實踐,主要應用於電商業務、營銷業務、O2O、交通、物流、娛樂、金融、徵信、安全等幾十個場景。涉及營銷管理,安全風控,推薦,預測,洞察等多個方面。
在阿里強勢領域電商的應用就不多說,讓人眼睛一亮的是在交通、安全行業的應用。
最後,是演講中最精華的部分,阿里大資料分析線上化和開放化是怎麼應用的,都在典型業務架構圖中。
架構圖中,我們發現與眾不同的是AnalyticDB,這是阿里自研的大規模高效能分析型資料庫,其實AnalyticDB並不是個新產品。會後,離哲在接受筆者採訪時表示,AnalyticDB在2014年就上雲了,主要目標是做極速低成本的PB級實時資料倉儲。
AnalyticDB主打三個功能:一、低成本;二、極速分析,包含延遲,併發上做到極速。三、上層提供了足夠好的應用性,讓使用者能像用單機資料庫一樣,絕大部分語言和工具,都能連線。使用者可以透過任何BI工具,甚至excel都能連線上來做分析,其目的是讓阿里的線上分析能力能被使用者以足夠低的成本連線和被使用。
離哲最後表示,AnalyticDB目標是能讓資料價值被發現,透過資料價值的實時性,資料探索的實時性,去驅動商業變革。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/11310314/viewspace-2153926/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 阿里雲 PB 級 Kubernetes 日誌平臺建設實踐阿里
- Uber基於Apache Hudi構建PB級資料湖實踐Apache
- PB級資料實時查詢,滴滴Elasticsearch多叢集架構實踐Elasticsearch架構
- Python 如何連線並操作 AWS 上 PB 級雲資料倉儲 RedshiftPython
- 阿里專家分享:企業級大資料輕量雲實踐阿里大資料
- 【演講實錄】銀行PB級別海量非結構化資料管理實踐
- PB 級大規模 Elasticsearch 叢集運維與調優實踐Elasticsearch運維
- PB 級資料處理挑戰,Kubernetes如何助力基因分析?
- 阿里巴巴資深大資料工程師:大資料處理實踐阿里大資料工程師
- 連載:阿里巴巴大資料實踐—資料建模綜述阿里大資料
- 阿里雲Polardb國產資料庫補丁升級 實踐阿里資料庫
- 大資料時代,如何做資料探勘與分析!大資料
- 案例丨「PB級資料」股份制銀行內容管理平臺的探索與實踐
- 存算分離實踐:JuiceFS 在中國電信日均 PB 級資料場景的應用UI
- 大資料HBase在阿里搜尋中的應用實踐大資料阿里
- 基於雲原生的大資料實時分析方案實踐大資料
- 阿里IM技術分享(七):閒魚IM的線上、離線聊天資料同步機制優化實踐阿里優化
- 如何做好資料分析
- 5大主流方案對比:MySQL千億級資料線上平滑擴容實戰MySql
- 阿里雲DataWorks實踐:資料整合+資料開發阿里
- PB級資料持久化快取系統——lest持久化快取
- MSSQL·最佳實踐·例項級別資料庫上雲RDSSQLServerSQL資料庫Server
- 大資料實踐解析(下):Spark的讀寫流程分析大資料Spark
- 基於EMR離線資料分析(阿里雲)阿里
- 阿里十年技術沉澱|深度解析百PB級資料匯流排技術阿里
- 大資料5.1 - hive離線分析大資料Hive
- 大資料導航新版上線大資料
- 阿里雲大資料認證——基於阿里雲數加構建企業級資料分析平臺-課堂筆記阿里大資料筆記
- 為資料安全護航,袋鼠雲在資料分類分級上的探索實踐
- 大資料Storm 之RCE實踐大資料ORM
- 基於 Spark 的資料分析實踐Spark
- 愛奇藝大資料實時分析平臺的建設與實踐大資料
- 實踐:大資料平臺1.0總結和2.0演化路線大資料
- 阿里雲王林平:一站式資料庫上雲最佳實踐阿里資料庫
- 百分點萬億級大資料平臺的建設實踐大資料
- 企業級雲資料庫最佳實踐資料庫
- cassandra百億級資料庫遷移實踐資料庫
- 阿里雲2020年雲棲大會開始了,趕緊來看線上直播阿里