2023愛分析 · 資料科學與機器學習平臺廠商全景報告 | 愛分析報告

ifenxi發表於2023-02-14

 

 

2023愛分析 · 資料科學與機器學習平臺廠商全景報告 | 愛分析報告

報告編委

黃勇

愛分析合夥人&首席分析師

孟晨靜

愛分析分析師  

目錄

1. 研究範圍定義

2. 廠商全景地圖

3. 市場分析與廠商評估

4. 入選廠商列表

1.    研究範圍定義

研究範圍

經濟新常態下,如何對海量資料進行分析挖掘以支撐敏捷決策、適應市場的快速變化,正成為企業數字化轉型的關鍵。機器學習演算法能識別資料模型,基於規律完成學習、推理和決策,正廣泛的應用在金融、消費品與零售、製造業、能源業、政府與公共服務等行業的各種業務場景中,如精準營銷、智慧風控、產品研發、裝置監管、智慧排產、流程最佳化等。企業傳統的機器學習雖然能有效支撐業務決策,但由於嚴重依賴資料科學家,其技術門檻高、建模週期長的特點正成為企業實現資料驅動的阻礙。

資料科學與機器學習平臺是指覆蓋資料採集、資料探索、資料處理、特徵工程、模型構建、模型訓練、模型部署與釋出、模型管理與運營等建模全流程的平臺,提供一站式建模服務,能顯著提升建模效率、降低建模門檻。資料科學與機器學習平臺能支援並賦能企業各業務場景實現智慧決策,幫助企業打造資料驅動型組織。

本報告對資料科學與機器學習平臺市場進行重點研究,面向金融、消費品與零售、製造與能源、政府與公共服務等行業企業,以及人工智慧軟體與服務提供商的資料部門、業務部門負責人,透過對業務場景的需求定義和代表廠商的能力評估,為企業資料科學與機器學習平臺的建設規劃、廠商選型提供參考。

廠商入選標準

本次入選報告的廠商需同時符合以下條件:

  • 廠商的產品服務滿足市場分析的廠商能力要求;
  • 近一年廠商具備一定數量以上的付費客戶(參考第3章市場分析部分);
  • 近一年廠商在特定市場的收入達到指標要求(參考第3章市場分析部分)。 

2.     廠商全景地圖

愛分析基於對甲方企業和典型廠商的調研以及桌面研究,遴選出在資料科學與機器學習市場中具備成熟解決方案和落地能力的入選廠商。

2023愛分析 · 資料科學與機器學習平臺廠商全景報告 | 愛分析報告

3.     市場分析與廠商評估    

愛分析對本次資料科學與機器學習平臺專案的市場分析如下。同時,針對參與此次報告的部分代表廠商,愛分析撰寫了廠商能力評估。

資料科學與機器學習平臺

市場定義:

資料科學與機器學習平臺是指覆蓋資料採集、資料探索、資料處理、特徵工程、模型構建、模型訓練、模型部署與釋出、模型管理與運營等建模全流程的平臺,提供一站式建模服務,能顯著提升建模效率、降低建模門檻。

甲方終端使用者:

金融、消費品與零售、製造與能源、政府與公共服務等行業企業,以及人工智慧軟體與服務提供商的資料科學家、風控建模人員、營銷建模人員、業務分析人員、模型應用人員

甲方核心需求:

企業對機器學習的應用越來越廣泛。一方面,資料量的激增、演算法的突破以及CPU、GPU、DPU等多種算力技術的發展,為以機器學習為基礎的資料探勘、計算機視覺、自然語言處理、生物特徵識別等技術在企業的應用奠定了技術基礎;另一方面,市場環境的快速變化對企業決策敏捷性要求增強,不僅推動企業將機器學習模型應用到營銷、廣告、風控、生產等更多業務場景,也對模型精度、模型開發敏捷性以及模型應用廣度提出更高要求。然而,機器學習技術門檻高、建模週期長,難以滿足企業透過基於機器學習模型提升經營效率的需求。

資料科學與機器學習平臺具備工具豐富整合、建模效率提升以及模型資產複用等特點,能充分滿足企業對智慧應用的需求,正成為企業智慧化基礎設施的必要構成。

不同企業對資料科學與機器學習平臺的需求不同,其差異取決於企業自身機器學習建模能力和對演算法的需求。

1、對於金融、消費品與零售、製造與能源、政府與公共服務等行業企業

除大型金融機構外,傳統企業普遍不具備機器學習建模能力。大型金融機構資料科學團隊人才完善,對機器學習演算法的探索和應用更前沿,如將機器學習模型應用在精準營銷、智慧風控、產品研發、客戶體驗管理等多個場景中。但更多的傳統企業面臨IT人才缺失、尚未開始智慧化應用或處於區域性試驗的初期階段。傳統企業對資料科學與機器學習平臺的需求主要體現在以下四個方面:

1)降低機器學習建模門檻,使非專業建模人員也能掌握機器學習建模技術,賦能業務。傳統機器學習建模技術門檻高,需要組建專門的資料科學團隊,包括資料工程師、資料科學家、開發工程師等,人力成本高昂。傳統企業希望能降低機器學習建模門檻,如平臺能實現資料自動處理、自動特徵工程、圖形化建模或自動建模等功能,使非專業的業務人員也能快速開展建模工作,廣泛賦能業務,實現普惠AI。

2)提供定製化演算法、模型部署和運營服務,快速創造業務價值。傳統行業多具備行業特性,行業垂直場景下的模型開發耗時耗力,而且傳統企業對AI智慧應用的探索尚處於初期,更傾向“小步快跑”,因此購買定製化演算法能節約人力、實現快速產出以及驗證AI智慧應用效果。企業需要廠商提供定製化演算法服務、模型在硬體平臺和作業系統平臺的部署服務以及模型運營服務。

3)縮短建模週期,提高業務敏捷響應度。以金融行業為例,金融企業的產品、服務、風控模型均需隨著客戶行為改變而持續迭代更新。但傳統的機器學習建模週期長達數月,無法敏捷響應業務需求。企業需要資料科學與機器學習平臺內建豐富的行業演算法、模型模板、案例等,供建模人員直接呼叫,加速模型訓練;或是提供一鍵部署功能,實現模型在生產環境的快速部署。

4)提供諮詢服務,提升模型質量。對於具備一定機器學習建模能力的金融機構,需要廠商提供建模諮詢支援,協助企業完成資料準備、模型訓練、模型部署等環節,提升模型質量。

2、對於人工智慧軟體與服務提供商

對於中小企業或是剛開始試點智慧應用的企業,相較於資料科學與機器學習平臺需要的組織、人才、流程上的變革與支援,採購適用於特定場景的AI智慧應用是價效比更高、更迅捷的解決方案。人工智慧軟體與服務商如演算法服務商、ISV即面向此類需求,提供模型和智慧應用服務。以演算法服務商為例,儘管具備專業的資料科學團隊,但中小型企業的演算法需求多樣且個性化,如雖然都是AI視覺演算法,智慧城市、智慧工業下的應用場景如安全帽識別、產品瑕疵識別的模型卻截然不同,需要基於業務資料集、業務思路分別進行訓練。這使得演算法服務商常常面臨嚴格的演算法交付週期和演算法精度要求。具體而言,人工智慧軟體與服務提供商對資料科學與機器學習平臺的核心需求主要體現在以下四個方面:

1)提高機器學習建模效率。軟體開發公司、演算法提供商面臨嚴格的交付週期,但在傳統AI應用開發方式下,資料接入、資料處理、模型訓練等一系列建模流程都需要人工操作,建模週期長。其中資料接入環節因開源演算法工具對不同型別的資料相容性較差,需人工將原始資料轉化為開源演算法所支援的資料型別;資料標註環節往往透過人工完成,並且部分領域的標註過程嚴重依賴專業知識,整體資料準備將耗費數週時間;模型部署中對模型的整合、監控和更新需要大量的調研和實施工作,單個模型部署到上線需要3-5個月。企業需要完善的資料科學工具和建模功能,支援實現資料採集、資料準備、特徵工程、模型訓練、模型部署等建模全流程,提高建模效率。

2)滿足資料科學家複雜場景建模需求。平臺需支援資料科學家在複雜場景下進行靈活建模,如提供豐富的演算法,預置主流機器學習框架,支援NoteBook建模方式,以及支援資料科學家在模型訓練中手動調參等。

3)對模型開發資源和計算資源進行統一管理,支援計算資源彈性擴容,加速建模計算效能。傳統開發模式中重複建設嚴重,如各專案資料準備、特徵工程、模型訓練等各自研發,造成模型開發管理資源、計算資源浪費,難以適應大規模智慧應用開發需求。另外,機器學習模型訓練過程中耗費大量計算資源,而一旦結束訓練,計算資源又處於閒置狀態。企業需要實現計算資源彈性擴容,滿足模型開發不同階段的計算需求。

4)為多角色的資料科學團隊提供協作平臺。機器學習建模過程需要資料工程師、資料科學家、資料分析師等多角色共同協作完成,存在反覆溝通、協作流程不明確等問題,帶來重複性工作。

廠商能力要求:

為滿足金融、消費品與零售、製造與能源、政府與公共服務等行業企業,以及人工智慧軟體與服務提供商等甲方客戶的核心需求,廠商需具備以下能力:

1、廠商應具備完善的機器學習模型開發功能,提供包括資料採集、資料準備、特徵工程、模型訓練、模型部署等功能在內的一站式端到端資料科學與機器學習平臺。

1)資料採集方面,平臺應具備整合多源異構資料的能力,支援實時接入結構化資料和非結構化資料(如表格、圖片、時間序列資料、語音和文字等),並具備基本的ETL能力、資料實時更新和同步能力。

2)資料準備方面,平臺應提供豐富的資料清洗、資料探索工具。其中資料清洗環節,應能支援進行資料融合、資料缺失處理、資料分類、資料標註、資料異常處理、資料平滑以及整合非結構化資料和結構化資料等資料清洗工作,減少人工干預。資料探索環節,廠商需具備單變數和多變數統計、聚類分析、地理定點陣圖、相似度度量等分析能力。

3)模型訓練環節,針對非專業建模人員,平臺應提供簡便易用的建模工具,降低機器學習建模門檻。如平臺可透過建模全流程視覺化降低使用者使用門檻,尤其在模型構建環節,應支援以拖拉拽的方式完成建模。針對專業建模人員,平臺應具備較高的靈活性和開放性,提供主流開源演算法和建模工具。如為專業的資料科學家提供自由靈活的NoteBook建模方式,並預置主流機器學習框架R、TensorFlow、Pytorch、Spark等,以及豐富的機器學習演算法。

4)模型部署環節,平臺應支援模型一鍵部署,使建模人員可快速將模型從開發環境部署到生產環境中,並提供API介面供業務人員呼叫。此外,平臺還應提供模型版本管理和模型監控功能,實時監測模型效能,保證模型質量。

5)資源管理方面,平臺需能對CPU、GPU資源進行管理和整合,以容器化方式對算力虛擬化,實現彈性擴容、效能加速等功能,且不同部門和專案之間可共享叢集資源。

6)平臺應具備AutoML能力,包括提供資料自動清洗、智慧標註、自動特徵工程和自動模型訓練等功能,提高建模效率。其中特徵工程環節,資料科學與機器學習平臺應能實現自動化特徵構建、特徵選擇、特徵降維和特徵編碼;模型訓練環節,平臺應支援自動化模型選擇、自動化調參、自動化超引數搜尋、模型自動驗證等,減少模型訓練時間成本和人力成本。

7)此外,平臺還應支援多角色的資料科學團隊協作,協同資料工程師、資料科學家、業務人員等不同角色在建模工作流程中的模型註解、討論、答疑、評論等,使建模過程可追溯、模型可複用,減少重複性工作。

2、廠商需具備垂直行業Know-how能力,為企業提供諮詢和實施部署服務。廠商的專業服務能力體現在三個方面:一方面,基於豐富的垂直行業知識和經驗積累,廠商能為使用者提供行業場景相關的演算法、模型模板,或是將行業經驗與模型演算法相結合,形成諸如精準營銷、智慧推薦、反欺詐、裝置預警等智慧業務模型,供使用者直接呼叫;另一方面,廠商能提供建模諮詢服務,透過資料科學專家團隊規劃有效的模型應用到特定業務的運營方案,協助使用者完成資料準備、模型訓練、模型部署、模型運營等工作,以及將企業既有的資料集經驗、特徵工程經驗、模型經驗等提煉形成數字資產,內嵌到平臺中。此外,廠商應具備較強的實施部署能力,包括提供定製化模型演算法在硬體平臺和作業系統平臺的部署服務、以及資料科學與機器學習平臺的部署服務。

入選標準:

1.符合市場定義中的廠商能力要求;

2.2021Q3至2022Q2該市場付費客戶數量≥10個;

3.2021Q3至2022Q2該市場合同收入≥1000萬元;

代表廠商評估:

2023愛分析 · 資料科學與機器學習平臺廠商全景報告 | 愛分析報告

百分點科技

廠商介紹:

北京百分點科技集團股份有限公司(簡稱“百分點科技”)成立於2009年,是領先的資料科學基礎平臺及資料智慧應用提供商,圍繞智慧政務、公共安全、數字產業三大業務板塊,為國內外企業和政府客戶提供端到端數智化解決方案。

品服務介紹:

百分點資料科學基礎平臺圍繞資料價值增值過程,提供資料融合治理、資料建模與知識生產、知識應用三大工具集,覆蓋從資料整合、資料治理、資料建模、資料分析到資料服務的完整資料價值鏈條。其中資料建模環節,內建機器學習平臺,能一站式、視覺化地實現資料準備、特徵工程、模型開發與訓練、模型部署與釋出、模型管理等機器學習建模全流程,幫助企業快速構建資料分析、語義分析、語音分析以及視覺分析應用。

廠商評估:  

百分點機器學習平臺能實現一站式、視覺化機器學習建模全流程管理,具備高效的資料預處理、豐富的模型服務能力。此外,百分點科技具備完善的資料建模上下游資料科學工具,能幫助使用者實現“資料——知識——應用”閉環,並在智慧公安、應急管理、客戶體驗管理等領域沉澱豐富行業經驗,能為使用者提供端到端解決方案。

  • 具備便捷、高效的資料預處理能力。 百分點機器學習平臺封裝了大量預處理演算法元件支援對資料的提取、清洗、轉化、組合、去重等多種處理操作,尤其分散式資料處理元件,可大幅提升資料預處理速度。此外,百分點機器學習平臺還提供文字標註、語音標註、影像標註、影片標註四種標註型別,支援多模態資訊抽取和融合。
  • 建模全流程視覺化,顯著降低使用者使用門檻。 百分點機器學習平臺提供從資料接入、資料預處理、特徵工程、模型訓練、模型評估、模型管理及釋出的全流程視覺化操作。其中在建模環節,機器學習平臺封裝大量機器學習演算法元件並支援視覺化引數配置,使用者可零程式碼操作,透過簡單拖拽和連線對演算法元件進行組合,進而構建複雜的機器學習框架,以及透過調節、配置引數完成模型建立。在模型訓練及評估環節,平臺支援模型評估指標以圖、表的形式展現,使用者可動態檢視評估指標,實時掌控模型優度情況。在模型釋出後,支援對釋出上線的任務進行視覺化實時監控,幫助建模人員輕鬆完成智慧監控、定時任務排程。
  • 提供豐富的模型服務,簡化模型工程化事項。 在模型釋出方面,提供一鍵部署功能,自動分配叢集資源,實現大資料環境下機器學習模型的穩定執行。模型管理方面,支援模型詳細資訊檢視、多版本對比以及模型複用。此外,百分點科技還提供模型的下發、上報、訂閱及評論功能,支援模型的共享和評價,如在全國公安機關警務督察資訊研判系統案例中,系統可以將模型下發到省級、市級警務督察部門,並且支援基層幹警對模型進行修正或評價,以實現模型快速分享和反饋。
  • 具備完善的資料建模上下游資料科學工具,為使用者實現“資料——知識——應用”閉環。 百分點資料科學基礎平臺中,資料建模的上游工具包括資料整合、資料治理、資料開發等多種資料融合治理工具,能提高使用者資料治理能力、沉澱資料資產。下游工具包括知識生產工具,如指標體系、標籤體系、知識圖譜構建,基於資料建模幫助企業實現知識生產;以及知識應用工具,如商業智慧分析、知識融合分析、領域知識管理等,將知識進一步應用到業務場景中,提升企業經營效率。
  • 在智慧公安、應急管理、客戶體驗管理領域提供端到端解決方案,賦能業務場景應用。 百分點科技成立於2009年,在智慧公安、應急管理、客戶體驗管理等領域沉澱了大量領域know-how和專案經驗,能為政府單位使用者以及工業、零售快消等行業企業使用者提供端到端的解決方案,包括專案諮詢、專案開發、專案運營、專案服務等。在服務使用者的過程中,百分點科技專案團隊包含資料科學家、資料工程師、業務專家等,協同使用者一起將資料、模型和工具融入智慧統計、數字營商、經營分析、營銷洞察等業務場景中,真正實現業務價值。此外,百分點科技也將行業經驗與模型演算法相結合,形成銷量預測、庫存預警、指揮排程、監測預警、風險預測等豐富的智慧業務模型,供使用者直接呼叫。

典型客戶:

中旅中免、應急管理部、北京市公安局、北京市統計局  

  1. 入選廠商列表

2023愛分析 · 資料科學與機器學習平臺廠商全景報告 | 愛分析報告


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69993021/viewspace-2935264/,如需轉載,請註明出處,否則將追究法律責任。

相關文章