說說敏捷大資料

weixin_33860722發表於2017-01-07

為什麼提出敏捷大資料,先來看看大資料應用的終極目標,我以前的文章有講到,大資料分析的成功普及將是傳統資訊化的終點,換句話說資訊化走向智慧化之後,整個高科技相關的產業鏈(包括傳統產業)會產生質的變化。大資料應用的終極目標是:面向過去,發現資料規律-通過描述性分析,歸納已知;面向未來,預測資料趨勢-通過深度挖掘分析,預測未知;最終通過大資料分析提高對事物的理解和處理能力,進而實現真正的智慧!不管是商業智慧,機器智慧,還是智慧客服,智慧問答,智慧推薦,智慧醫療、智慧交通等等相關核心系統,本質都是朝著這一目標在演進。要實現這一目標,雖然還需要一定時間,但不會太久,我們從IT產業發展歷史可以看到,PC時代-網際網路-移動網際網路-物聯網-雲端計算-大資料-深度學習-機器智慧-奇點到來,時間跨度遞減,熱點週期遞減,IT前沿產業發展實則是一個加速收斂的過程,現在正處於機器智慧誕生的前夜。那麼大資料會不會像某些領域炒作一樣雷聲大雨點小?實際上前些年我們說雲端計算雲裡霧裡一樣,現在還能說雲端計算是在雲裡霧裡嗎?任何新興事物發展都有個過程。那麼大資料應用要落地,個人認為目前主要有面臨幾個方面的瓶頸:(1)IT向DT(Data Technology)技術泛型的轉變,將會是硬體和軟體技術架構的根本性改變,量子計算機、奈米機器人、深度神經網路晶片、分散式系統、GPU大規模計算等等都是對傳統IT技術架構的顛覆,現階段各種大資料分析相關的開源技術和系統百花齊放,大資料技術生態體系龐雜,技術門檻較高也間接說明了這一點。研究、研發人員要跟上這一波技術變革還需要時間去消化和積累,特別是研究界和工業界的結合,對大資料應用來講至關重要,因為真正對大資料架構、技術、演算法、業務都懂的複合型人才可以說是鳳毛麟角。(2)傳統商業智慧BI應用的失敗教訓太多,專案週期漫長,考驗客戶耐性,應用成本高,昂貴的豪華報表,資料分析使用者參與度低,難達預期目標,儲存能力、擴充套件能力、併發能力弱等問題無法從根本解決,我們仍沒有從BI實施中總結失敗教訓和獲得成功經驗,大資料應用與傳統BI系統是融合還是代替?如SAP,Oracle等傳統BI廠商在擴充套件自身產品大資料處理能力的同時,如何與發源於網際網路巨頭的主流大資料技術架構有機統一?如此種種還有很多問題需要解決。(3)大資料應用的標準化和產品化問題。資料的動態性、時效性、多樣性怎麼標準化的管理,離線分析、線上分析、實時分析、記憶體分析計算框架的融合,影像、文字、視訊、音訊、網頁、關聯式資料庫等多模態資料探勘的統一,資料分析應用效果如何量化與評價。(4)資料科學還是資料工程,機器學習技術如何走出實驗室,工業企業界包括政府管理機構如何引入研究智力,資料分析如何轉化和價值變現?科學研究人員和企業工程人員都得想想大資料思維,思考怎麼有效對接,深度學習四大金剛從名校轉入名企成為領路人,說明資料科學走向資料工程是可行的,當然這樣的企業本身具有強大的實力,能引領業界發展…。


針對上述大資料應用的瓶頸分析,大概就知道我為什麼提敏捷大資料了,大資料分析要落地,敏捷應用勢在必行,為什麼這樣講,我們再來看看大資料應用過程和特點,大資料分析,要完成的是一種將各方面源資料(圍繞一個行業或者某個分析主題)通過ETL組織成為主題資料,從主題資料中提煉特徵,從特徵挖掘中發現規律和有價值的資訊,就規律和預測資訊形成決策支援並進行應用和追蹤評估,最後反饋回大資料系統進行反覆驗證並優化的閉環資訊處理過程。這個說法是不是跟人工智慧的Agent這一核心模組很像?資料科學的本質是迭代,就好比嬰兒的學習一樣,輸入-回應-反饋-輸入,持續訓練和學習才會產生智力,真正的大資料分析系統應該是一樣的道理,所以不能自適應優化和持續改進的大資料系統都是在耍流氓,這個問題也說明大資料應用一定不是傳統資訊化系統的玩法,甚至服務條款、設計研發、交付實施等很多方面都不能按照以前的模式來。那什麼叫敏捷大資料,暫且給出一個初步定義,在我看來,敏捷大資料是基於資料科學的迭代性本質和利用高效元件化技術,對大資料架構和分析子系統可進行元件化設計,對演算法模型可進行標準化配置。能根據實際需求快速選型並搭建大資料原型系統,能快速迭代大資料分析結果,並實時響應客戶不斷變化的需求,最終將原型轉化為生產系統。在快速迭代、快速反饋、自適應閉環驗證優化過程中,讓客戶逐步完成大資料分析和管理思維變革,並提升業務能力和獲得資料價值。這個定義裡面有幾個關鍵詞:元件、配置、原型、閉環、迭代,缺一不可。具體技術環節的細化涉及較廣暫不做展開,有興趣的朋友可以看看資料倉儲裡面的主題資料集市,它的設計模式、分析目標及過程特徵有點敏捷大資料的影子。總之,敏捷大資料的核心目標:一是快、二是小、三是證,快速出原型,小的業務分析目標切入,證明有效之後再擴張。傳統BI專案失敗就是沒有把握好這三個目標,同理網際網路巨頭能成功,能使大資料技術百花齊放,是因為把握好了這三個核心目標。那麼怎樣才叫實現敏捷大資料,首先給出通用的幾點(和軟體工程的敏捷特徵類似):應用功能可以使用已有的功能元件組合而成,在元件之間交換的資料形式應當標準化和介面化,元件的組合只需少量程式設計或配置便可以完成,可以對非程式設計師提供開箱即用的資料探勘和分析能力,大資料應用全程(採集、儲存、分析、管理)視覺化操作管理。要實現敏捷大資料,一是要遵從我講過的企業大資料應用三段論,二是把握快、小、證核心原則,三是技術上,從系統架構及詳細設計層面,包括從系統架構、元件化管理、資源排程、服務抽象、部署運維、資料探勘模組及流程各個層面都需要有科學有效地設計支撐,這就取決於各自的設計和研發能力了,有興趣的朋友可以關注Microservices、YARN、Mesos、Docker、Container等技術內容,技術細節這裡不做展開。最後,大資料應用要落地,一定不能完全照搬傳統資訊化的套路,要把握好資料科學的本質和特點,從業務分析實施和技術研發多個層面同時遵從敏捷大資料方法,才能走得更遠。這就是我對敏捷大資料所提出的一點初步想法,要達到預期目標不容易,具體實現細節跟採用技術路線有關,需要系統深入的研究和總結實踐經驗。總之,敏捷之於大資料有其必要性,這樣才能用好大資料,分析好大資料,實施好大資料…

來源:點金大資料    作者:杜聖東

相關文章