近年來,數字化轉型已經被更多的企業接受,而初級的數字化也已經深入到“數“”智“融合階段。紅杉資本此前做的一項研究顯示,企業數字化能力評估模型的重要一環是資料驅動的洞察與決策,即基於資料和複雜的演算法推薦、預測等結果,幫助管理層做出更科學和高效的決策。
諮詢機構能夠從巨集觀上幫助企業進行數智融合的方法論指導,而作為企業的數字底座雲端計算廠商亞馬遜雲科技,有著更深層次的認識,能夠幫助企業完成技術實現。
在不久前召開的《雲領數智融合,重塑資料洞察》溝通會上,亞馬遜雲科技大中華區產品部總經理陳曉建建議,企業要重塑資料洞察,一定是將資料(大資料技術)和智慧(機器學習技術)進行融合和統一。
大資料與機器學習的需求變化也越來越多。主要表現為四個方面:
組織架構層面:將原來分散在各個部門的機器學習實踐進行整合,並與大資料專案進行統一協調和資源配置;
人員能力層面:要求和安排原有傳統的大資料實踐者掌握機器學習技術,應用到大資料具體專案或承接新的機器學習相關的專案需求,要求機器學習從業者也要掌握大資料處理能力,更好、更便捷地完成模型所需的資料準備和加工;
專案實施層面:僅依靠傳統的大資料技術是無法全方位提供充足的資料見解,仍需要機器學習的模型能力補充,越來越多的資料專案會融合大資料和機器學習兩者的能力;
工具支撐層面:需要面向大資料技術和機器學習構建統一的開發平臺和技術基礎,可能是對已有大資料平臺進行改造增加機器學習相關場景和能力,或是完全推倒重新構建一個面向兩者的通用的平臺。
在現實中,資料分析與機器學習之間,存在著很多不協同的問題。如何將二者進行有效融合,陳曉建認為需要解決三個方面的問題:
第一:資料和機器學習分而治之,資料及技術孤島制約敏捷迭代。
第二:資料處理能力不足。在生產製造企業,機器學習幫助客戶對產品售後維修需求進行預測,由被動響應變為主動規劃。但由於不具備足夠的大資料處理能力,模型開發成功後 ,不能夠有效收集處理海量的運營資料,致使預測不準確,無法達到預期業務目標。
第三:據分析人員參與度低。現實情況經常是,模型在實驗環節效果良好,但實際使用中卻不盡人意,實驗環境只是對真實環境的簡單模擬,生產環境要複雜得多。
與一般的諮詢公司給出的方法論不同,亞馬遜雲科技能在技術細節上幫助企業更有效實現升級變革。這蘊含了亞馬遜雲科技三大技術能力:
構建雲中統一的資料治理底座,打破資料及技能孤島。亞馬遜雲科技能幫助客戶構建統一的資料治理底座,實現大資料和機器學習的資料共享,資料許可權的統一管控,以及兩者統一的開發和流程編排。雲中統一的資料治理底座不僅能提升大資料和機器學習的高效融合,還能減少大資料和機器學習重複構建的工作,並且顯著降低成本。其中, Amazon Lake Formation推出諸多新功能,實現了資料網格跨部門的資料資產共享,以及基於單元格的最細粒度的許可權控制機制。Amazon SageMaker Studio可一站式地完成資料開發、模型開發及相關的生產任務,該服務基於多種專門構建的服務,如互動式查詢服務Amazon Athena、雲上大資料平臺Amazon Elastic MapReduce (Amazon EMR)、雲資料倉儲服務Amazon Redshift、Amazon SageMaker等,為大資料和機器學習提供統一的開發平臺。
助力機器學習由實驗轉為實踐,為機器學習提供生產級別的資料處理能力。機器學習專案成功的關鍵是對複雜的資料進行加工和準備。亞馬遜雲科技提供多種靈活可擴充套件、專門構建的大資料服務,幫助客戶進行復雜的資料加工及處理,應對資料規模的動態變化,優化資料質量。其中,Amazon Athena能夠對支援多種開源框架的大資料平臺,包括Amazon EMR、高效能關聯式資料庫Amazon Aurora、NoSQL資料庫服務Amazon DynamoDB、Amazon Redshift等多種資料來源,對這些資料來源進行聯邦查詢,快速完成機器學習建模的資料加工。 以Amazon Redshift、Amazon Managed Streaming for Apache Kafka (Amazon MSK)和 Amazon EMR 為代表的無伺服器分析能力,可以讓客戶無需配置、擴充套件或管理底層基礎設施,即可輕鬆地處理任何規模的資料,為機器學習專案提供兼具效能和成本效益的特徵資料準備。
讓資料分析智慧化,賦能業務人員探索創新。亞馬遜雲科技還不斷提供更加智慧的資料分析服務,賦能業務人員進行智慧分析、模型效果驗證以及自主式創新。例如,在日常分析工具中整合機器學習模型預測能力,其中深度整合機器學習Amazon SageMaker模型預測能力的Amazon QuickSight 、在分析結果中新增基於模型預測的Amazon Athena ML,可幫助使用者使用熟悉的技術,甚至通過自然語言來使用機器學習。亞馬遜雲科技還提供如Amazon Redshift ML、可視資料準備工具Amazon Glue DataBrew、零程式碼化的機器學習模型工具 Amazon SageMaker Canvas等服務,讓業務人員探索機器學習建模。
亞馬遜雲科技 “雲、數、智三位一體”服務組合優勢能夠打破資料及技能孤島、機器學習由實驗轉為實踐、賦能業務人員探索創新。而企業則可以雲中打造統一的資料基礎底座,實現大資料和機器學習的雙劍合璧,為企業發展提供新動力。