大資料的系統學習:大資料學習的三個階段概述

金羅老師發表於2019-02-22

  不同階段的技術路線各有側重,把握主要矛盾。在大資料應用實施過程中,由於技術和成本考慮,不可能短時間內解決所有問題,大資料應用本身有其規律和特點,比如分析目標一定是要跟資料規模匹配,分析技術的採用取決於資料結構和資料來源條件,資料整合一定要覆蓋比較全面的業務背景,關鍵環節資料不能有缺失等等。


大資料的系統學習:大資料學習的三個階段概述


大資料學習可以根據應用目標分三個階段:

   1、 大資料基礎設施建設階段:

  這個階段的重點是把大資料存起來,管起來,能用起來,同時要考慮大資料平臺和原有業務系統的互通聯合問題。一句話,做好全域性資料整合解決資料孤島問題!要完成大資料基礎設施系統建設開發,需要明確資料採集、儲存和分析各層核心元件的選型和使用,搭建穩定的大資料叢集,或選擇私有云方案的服務叢集,與生產系統併線執行,使待分析的歷史資料和實時資料得以採集並源源不斷流入大資料系統。這個階段的關鍵技術學習包括採集爬蟲、資料介面、分散式儲存、資料預處理ETL、資料整合、資料庫和資料倉儲管理、雲端計算和資源排程管理等等內容。

   2、大資料描述性分析階段

  此階段主要定位於離線或線上對資料進行基本描述統計和探索式視覺化分析,對管理起來的大資料能進行海量儲存條件下的互動式查詢、彙總、統計和視覺化,如果建設了BI系統的,還需整合傳統BI技術進行OLAP、KPI、Report、Chart、Dashboard等分析和初步的描述型資料探勘分析。這個基礎分析階段是對資料整合質量的檢驗,也是對海量資料條件下的分散式儲存管理技術應用穩定性的測試,同時要能替代或整合傳統BI的各類報表。這個階段的關鍵技術學習包括視覺化、探索式互動式分析、多維分析、各類基本報表和圖表的查詢設計等等。

   3、大資料高階預測分析和生產部署階段:

  在初步描述分析結果合理,符合預期目標,資料分散式管理和描述型分析穩定成熟的條件下,可結合進一步智慧化分析需求,採用如深度學習等適用海量資料處理的機器學習模型,進行高階預測性挖掘分析。並透過逐步迭代最佳化挖掘模型和資料質量,形成穩定可靠和效能可擴充套件的智慧預測模型,並在企業相關業務服務中進行分析結果的決策支援,進行驗證、部署、評估和反饋。這個階段的關鍵技術包括機器學習建模、決策支援、視覺化、模型部署和運維等。

  在上述幾個階段的技術學習過程中,需要注意幾個關鍵問題:

  一是 重視視覺化和業務決策 ,大資料分析結果是為決策服務,而大資料決策的表現形式,視覺化技術的優劣起決定性作用;

  二是問問自己,Hadoop、Spark等是必須的嗎?要從整個大資料技術棧來考慮技術選型和技術路線的確定;

  三是 建模問題處於核心地位 ,模型的選擇和評估至關重要,在課堂和實驗室中,多數模型的評估是靜態的,少有考慮其執行速度、實時性及增量處理,因此多使用複雜的臃腫模型,其特徵變數往往及其複雜。而Kaggle競賽中的各種Boost方法,XGBDT、隨機森林等模型,在資料探勘和機器學習教材中卻少有提及,所以要充分參考業界實戰經驗不能盡信書;

  四是 開發語言的選擇 ,基礎框架系統Java是必須掌握的,應用級的機器學習和資料分析庫Python是必須掌握的,而要深入各種框架和學習庫的底層,C++是必須掌握的;

  五是 模型的產品化 ,需要將實際資料透過管道設計轉換為輸入特徵傳遞給模型,如何最小化模型線上上和線下的表現差距,這些都是要解決關鍵的問題。

   其它補充:

  Kaggle,眾包與培訓。眾包是一種基於網際網路的創新生產組織形式,企業利用網路將工作分配出去,透過讓更合適的人群參與其中來發現創意和解決問題,如維基百科,還有IT資源社群GitHub,都是典型的眾包平臺。眾包+開源極大推動了IT產業的快速發展,當然Kaggle作為資料科學領域頂級的眾包平臺,其影響力遠不止於此(所以剛剛被谷歌收購)。企業和研究者可在Kaggle上釋出資料,資料分析人員可在其上進行競賽以產生最好的模型。這一眾包模式本質就是集體智慧程式設計的體現,即有眾多策略可以用於解決幾乎所有預測建模問題,而分析人員不可能一開始就能找到最佳方案,Kaggle的目標就是透過眾包的形式來解決這一難題,進而使資料科學成為一場集體智慧運動。所以說要學好大資料,嚴重推薦去Kaggle沖沖浪,很好的歷練平臺。至於大資料培訓嘛,基礎理論和技術還不甚瞭解的情況下可以去培訓學習,成都加米穀大資料培訓機構的課程,是由企業大資料總架構師、企業專案經理、國家大資料標準組專家等聯合研發,保證課程的前沿性,貼合企業用人需求。有基礎之後還得靠自己多練多解決實際問題。

結論與展望

  大資料不是銀彈(Silver Bullet),大資料的興起只是說明了一種現象,隨著科技的高速發展,資料在人類生活和決策中所佔的比重越來越大。面對如此廣度和深度的大資料技術棧和工具集,如何學習和掌握好大資料分析這種技能,猶如盲人摸象,冷暖自知。不過技術的學習和應用也是相通的,條條大路通羅馬,關鍵是要找準切入點,理論與實踐結合,有全域性觀,工程化思維,對複雜系統設計開發與關鍵技術體系的主要矛盾要有所把握。熟悉大資料基礎理論與演算法、應用切入、以點帶面、舉一反三、橫向擴充套件,從而構建完整的大資料知識結構和核心技術能力,這樣的學習效果就會好很多。

  另外,技術發展也遵循量變到質變規律,人工智慧+物聯網+大資料+雲端計算是四位一體發展的(時間有先後,但技術實質性突破都在最近幾年),未來智慧時代的基礎設施、核心架構將基於這四個層面,這種社會演化趨勢也很明顯:農業時代〉工業時代〉網際網路時代〉智慧化時代。在這個四位一體智慧技術鏈條裡面,物聯網重在資料採集,雲端計算重在基礎設施,大資料技術處於核心地位,人工智慧則是發展目標,所以學習大資料技術還需要對這四個方面加以綜合研究和理解。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561003/viewspace-2636737/,如需轉載,請註明出處,否則將追究法律責任。

相關文章