如何做PB級大資料線上分析?看阿里實踐
企業資料每年以PB級甚至上百PB爆炸式增長,越來越大的資料量正為擴大分析策略在企業應用軟體領域的擴充提供了資料基礎,但資料的價值是有時效性的,越早分析越能得到更快的問題反饋或響應,而離線分析缺點顯然是不能及時地利用資料中所蘊含的深層價值,因此,如何針對海量資料進行毫秒級線上分析,就成為挑戰和新興話題。
佔超群,花名(離哲)來自阿里巴巴集團資料庫事業部資深技術專家,擁有10年資料處理及分析經驗。他表示,最初的資料分析基於OLTP資料庫來做,到了2005年大資料開始興起,2009年Hadoop名聲大噪。眾所周知,Hadoop的設計初衷是儲存與分析離線大資料,資料雖然能被處理,但問題也很多,比如太慢,資料不夠集中等,而阿里生態足夠大,眾多商家和廣告主一直希望利用資料驅動業務,因此,催生了阿里大規模線上化分析訴求,並且阿里集團絕大部分資料業務都是線上化的;最近三年,他也和客戶一起,充分利用阿里雲分析型資料庫的極速低成本能力,驅動外部的公安、物流、營銷、電力等行業客戶實現資料分析線上化;也就有了他在2017中國系統架構師大會上的分享,阿里巴巴大資料分析線上化和開放化的實踐。
離哲的分享主要有3部分,趨勢、案例及解決方案。
目前,資料處理呈現出3大重要趨勢,其一是從離線到線上的趨勢,圈裡現在基本都不怎麼提離線分析了,而是在討論線上分析。第二個趨勢是從統計到AI的趨勢,用AI技術去做資料處理不再是未來的事兒,而是現在已經正在發生著。第三個趨勢是線上分析平臺化,支援多樣化的資料如文字、Json、圖片等,實現資料融合、統一、聯合計算。
他認為,這些趨勢在未來的5年以內,會在中國乃至全球普及,未來資料分析是開放化、線上化的時代。他還指出,對未來企業業務的改造,怎麼樣讓資料部門不再是企業的負擔,而是一種增值,也是個很重要的探索方向。
PB級大資料線上分析對資料計算的要求不僅要面對越來越大的資料量能被線上計算,更要求實時,幾秒內返回,還可以被介面互動,並且可以讓人人都可以當分析師,同時可以去探索,需要足夠的開放性。
目前阿里大資料分析線上化和開放化的實踐,主要應用於電商業務、營銷業務、O2O、交通、物流、娛樂、金融、徵信、安全等幾十個場景。涉及營銷管理,安全風控,推薦,預測,洞察等多個方面。
在阿里強勢領域電商的應用就不多說,讓人眼睛一亮的是在交通、安全行業的應用。
最後,是演講中最精華的部分,阿里大資料分析線上化和開放化是怎麼應用的,都在典型業務架構圖中。
架構圖中,我們發現與眾不同的是AnalyticDB,這是阿里自研的大規模高效能分析型資料庫,其實AnalyticDB並不是個新產品。會後,離哲在接受筆者採訪時表示,AnalyticDB在2014年就上雲了,主要目標是做極速低成本的PB級實時資料倉儲。
AnalyticDB主打三個功能:一、低成本;二、極速分析,包含延遲,併發上做到極速。三、上層提供了足夠好的應用性,讓使用者能像用單機資料庫一樣,絕大部分語言和工具,都能連線。使用者可以透過任何BI工具,甚至excel都能連線上來做分析,其目的是讓阿里的線上分析能力能被使用者以足夠低的成本連線和被使用。
離哲最後表示,AnalyticDB目標是能讓資料價值被發現,透過資料價值的實時性,資料探索的實時性,去驅動商業變革。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/11310314/viewspace-2153926/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Uber基於Apache Hudi構建PB級資料湖實踐Apache
- 阿里專家分享:企業級大資料輕量雲實踐阿里大資料
- PB級資料實時查詢,滴滴Elasticsearch多叢集架構實踐Elasticsearch架構
- 阿里雲 PB 級 Kubernetes 日誌平臺建設實踐阿里
- PB 級大規模 Elasticsearch 叢集運維與調優實踐Elasticsearch運維
- 【演講實錄】銀行PB級別海量非結構化資料管理實踐
- 大資料時代,如何做資料探勘與分析!大資料
- 阿里巴巴資深大資料工程師:大資料處理實踐阿里大資料工程師
- 連載:阿里巴巴大資料實踐—資料建模綜述阿里大資料
- PB 級資料處理挑戰,Kubernetes如何助力基因分析?
- 大資料HBase在阿里搜尋中的應用實踐大資料阿里
- 阿里雲Polardb國產資料庫補丁升級 實踐阿里資料庫
- 存算分離實踐:JuiceFS 在中國電信日均 PB 級資料場景的應用UI
- 案例丨「PB級資料」股份制銀行內容管理平臺的探索與實踐
- 如何做好資料分析
- 基於雲原生的大資料實時分析方案實踐大資料
- 我的PB程式資料庫升級程式資料庫
- 優酷的敏捷實踐:如何做需求分析敏捷
- 大資料實踐解析(下):Spark的讀寫流程分析大資料Spark
- 企業大資料分析實踐指南、總結與展望大資料
- Facebook如何實現PB級別資料庫自動化備份資料庫
- 阿里雲DataWorks實踐:資料整合+資料開發阿里
- PB級資料持久化快取系統——lest持久化快取
- 阿里十年技術沉澱|深度解析百PB級資料匯流排技術阿里
- 大資料Storm 之RCE實踐大資料ORM
- 5大主流方案對比:MySQL千億級資料線上平滑擴容實戰MySql
- 收集、分析線上日誌資料實戰——ELK
- 百分點萬億級大資料平臺的建設實踐大資料
- 基於 Spark 的資料分析實踐Spark
- 企業級雲資料庫最佳實踐資料庫
- cassandra百億級資料庫遷移實踐資料庫
- Flume 在有贊大資料的實踐大資料
- 阿里雲大資料認證——基於阿里雲數加構建企業級資料分析平臺-課堂筆記阿里大資料筆記
- 如何做資料視覺化分析視覺化
- 2萬字揭秘阿里資料治理建設實踐阿里
- 看蘇州大搬家了!後臺資料正式搬到阿里雲阿里
- 《資料安全法》實施在即,企業如何做好資料分類分級?
- 北郵線上——分析大資料就業前景怎麼樣?大資料就業