打通資料價值鏈,百分點資料科學基礎平臺實現資料到決策的價值轉換 | 愛分析調研

ifenxi發表於2023-02-14

隨著企業資料規模的大幅增長,如何利用資料、充分挖掘資料價值,服務於企業經營管理成為當下企業數字化轉型的關鍵。

如何挖掘資料價值?企業需要一步步完成資料價值鏈條的多個環節,如資料整合、資料治理、資料建模、資料分析、資料服務、資料應用等,才能將資料轉換為洞察和決策。
當前企業在實現資料價值鏈的過程中積累了多種工具和流程。工具和流程的繁瑣反而成為企業資料價值進一步利用的阻礙。一方面工具的分散使得企業賦能業務場景時,難以發揮協同作用,多種工具待整合與整合。另一方面工具的技術性較強,當企業開展資料平民化時,業務人員面臨較高的技術門檻。
資料科學強調從資料到資訊、從資訊到知識、從知識到決策的資料價值轉換。而具備全棧技術和工具的資料科學平臺,不僅一站式整合多種資料價值實現能力,還支援資料工程師、資料科學家、資料分析師以及一線業務人員便捷、靈活地使用資料並賦能業務,正成為企業數字化轉型的重要手段。
百分點科技是一家提供資料科學工具的技術廠商。回顧百分點科技的成長史,為更好地服務企業客戶,百分點科技持續更新自身能力,從大資料全棧技術到認知智慧技術,從場景化分析洞察技術到資料智慧應用,百分點科技逐漸具備完善的資料科學技術和工具,結合13年行業服務經驗沉澱,能為客戶提供端到端解決方案。2022年,百分點科技正式提出“資料科學基礎平臺及資料智慧應用提供商”的定位,透過資料科學基礎平臺服務客戶,幫助客戶打通資料價值鏈,賦能業務場景。
近期,愛分析專訪了百分點科技CTO劉譯璟博士和百分點資料科學研究院院長杜曉夢博士,就市場對資料科學工具的需求變化、資料科學領域技術新趨勢、百分點資料科學平臺產品特點以及應用場景等問題展開了探討。
打通資料價值鏈,百分點資料科學基礎平臺實現資料到決策的價值轉換 | 愛分析調研
劉譯璟
百分點科技 CTO,北京大學應用資料專業博士,帶領團隊搭建了百分點科技大資料和人工智慧技術體系以及產品體系,創新提出海量複雜資料處理架構、多源異構資料的結構化和融合、基於知識圖譜的增強分析及互動等創新技術方法,成果連續3次榮獲“北京市科學技術獎”。
打通資料價值鏈,百分點資料科學基礎平臺實現資料到決策的價值轉換 | 愛分析調研
杜曉夢
百分點資料科學研究院院長,北京大學營銷模型專業博士,2018年北京市“科技新星”。專長於跨學科資料科學建模、消費者行為預測、網際網路廣告分析、社會媒體營銷、歸因模型、流失預警模型、社會網路分析等。
百分點科技觀察到,市場中對資料科學平臺的需求正在發生演變,定位於單一工具的資料科學平臺已經不能滿足客戶需求,客戶更強調諸如端到端的解決方案、全棧技術和工具的覆蓋,以及具備行業應用迭代功能等價值。同時,杜曉夢也強調,不同的行業因數字化程式不同,對資料科學平臺的需求側重點不同,企業在選擇資料科學平臺技術廠商時應根據自身需求和未來規劃進行綜合考量。
01 市場對資料科學平臺需求升級:從單一工具向全棧工具、從工具向價值的演變
愛分析:市場對資料科學的定義不一,在這樣的背景下,百分點科技定位資料科學基礎平臺提供商,如何定義資料科學?
劉譯璟:不同的廠商或機構對資料科學的定義有寬有窄,如Gartner對資料科學的定義會更強調機器學習、強調資料建模。百分點科技對資料科學的定義更廣泛,這有兩方面原因:
一方面,科研界對資料科學的定義以倡導廣義資料價值為主。從2016年起,我國各大高校陸續出現了大資料技術和資料科學這樣一個專業,這個學科交叉了資料、統計、計算機、人工智慧等等,是一個綜合性的學科。資料科學的目標是實現對現實世界的認知與操控,透過資料理解、認知現實世界,並將資料轉變成對現實世界的一種決策或者行動的能力。
根據主流高校教材對資料科學的定義, 資料科學整體研究的是資料價值鏈的實現,包括資料的採集、匯聚、儲存、治理、處理、計算、分析以及應用等全過程資料價值的開發與增值。資料價值鏈的實現能完成從資料到資訊、從資訊到知識、從知識到決策的轉換,最終實現資料價值釋放。
另一方面,資料分析和AI技術也正在深度融合,典型的案例是Databricks和Snowflake。來自FIRSTMARK的馬特·圖爾克在《2021年機器學習、人工智慧和資料(MAD)全景圖》中說到:Databricks一開始以資料湖和非結構化資料處理為主,現在開始增加資料倉儲以及BI能力;而Snowflake最初以資料倉儲為主,現在致力擴充套件資料湖和AI能力。兩家公司的目標都是發展成“萬物資料中心”,即儲存所有的資料,無論是結構化資料還是非結構化資料,並執行所有資料分析,無論是BI的歷史性分析還是AI預測性分析。我們發現,大資料、機器學習、AI、BI、資料湖和資料倉儲,這些技術必然會深度融合,形成你中有我、我中有你的局面。
整體來說,百分點科技對資料科學的定義與科研界保持一致,比單純機器學習平臺、資料治理的範疇更廣泛。
愛分析:近年來,客戶側對資料科學平臺的需求正發生怎樣的變化?
杜曉夢:資料科學技術發展突飛猛進,同時行業對資料科學工具平臺的需求也在持續變化,百分點科技基於多年的服務經驗觀察到三個明顯變化:
第一個變化是客戶更強調端到端的價值提供,尤其需要結合業務場景產生價值,而不再是強調工具。如客戶關注的是基於資料科學平臺,經過資料的採集、分析、加工、建模後,最終到業務場景中能產生什麼價值?不同行業的不同企業怎樣利用資料科學平臺去賦能生產、銷售、營銷、客服等不同的業務部門產生價值?客戶對資料科學平臺的需求正走向深水區。
百分點科技觀察到的第二個變化是,客戶對資料科學平臺的要求是全棧技術和多樣化工具的覆蓋,而不是單一工具的零散呈現。企業在整個數字化程式中,在不同階段會採用不同的工具,並逐漸積累了豐富的工具集,而企業面臨的問題是如何將零散的工具整合、協同發揮作用,即希望資料科學平臺有一套完整的Toolkit,面對不同的場景問題,都能找到相應的工具去解決,平臺工具需具備高整合性和高協同性。
第三個變化是,資料科學平臺應能結合行業、企業的具體業務知識構建應用,且應用能持續迭代和自學習,快速適應業務變化。資料科學平臺最開始產生的時候更偏向於通用性工具,隨著應用的推廣,不同的企業在使用資料科學平臺的過程中,將具備行業特性或是企業特性的具體業務場景知識沉澱到平臺中,使得不同行業或是不同企業的資料科學平臺越來越個性化。比如應急管理和零售快消的資料科學平臺,在經過長期的業務場景知識沉澱後,差異性會越來越大。
知識的沉澱是關鍵。百分點資料科學基礎平臺具備完整的知識生產功能,包括知識的生成、知識的管理、知識的沉澱、知識的應用等。百分點科技基於對行業知識的積累,能夠快速幫助企業搭建起個性化的(企業需要的)指標庫、標籤庫或者資料應用,以便更好的反應業務需求。
這也是百分點科技在所服務的核心行業中具備競爭壁壘的重要原因。一方面百分點科技具備先進的技術;另外一方面,百分點科技透過在細分行業多年的服務經驗,對業務邏輯具備深刻認知,積累了深厚的行業知識。
愛分析:目前在資料科學平臺的應用中有哪些值得關注的技術新趨勢?
杜曉夢:百分點科技觀察到三個明顯的趨勢:
第一個趨勢是多模態資料融合,尤其是將NLP、影像識別等技術和結構化資料分析技術相結合,來實現多模態資料融合。傳統的資料科學平臺以處理二維表結構的結構化資料為主,更多的是基於統計學的描述和模型進行分析。而且過去對於非結構化資料的分析是獨立進行的,極少與結構化資料融合。
未來,企業掌握的資料將會有很大一部分是非結構化資料、半結構化資料,如文件、圖片、影片、語音等,針對不同形態資料的融合分析將會越來越普遍。這就要求未來的資料科學平臺需具備處理和分析多模態資料以及基於融合資料構建智慧應用的能力。
第二個趨勢是分析流程自動化(APA),即透過資料和模型賦能全員,讓業務更加量化、自動化。APA中涉及到場景模型的嵌入和運算元化。隨著資料科學平臺的功能越來越流程化、自動化,資料和模型將賦能給企業全員,不僅僅限於資料科學家,未來,運營人員、銷售人員、市場人員等都將自由地使用平臺上不同的功能去做資料分析和挖掘。與此同時,平臺不需要業務人員透過寫程式碼建模,而是將模型運算元化後嵌入平臺,只要業務人員進行簡單的輸入,平臺就能輸出結果。
百分點資料科學基礎平臺有大量模型,如有以線性迴歸方程、隨機森林為代表的Meta元模型,也有場景化的模型諸如異常分析、指標加權等。尤其針對場景化模型,百分點科技在長期服務不同行業或企業的過程中,對業務場景需求的瞭解持續加深,基於此才能將場景化模型內嵌在資料科學基礎平臺上,賦能資料工程師、商業分析師、資料科學家乃至企業全員。APA也契合公民資料科學家的概念,APA將透過堅實的資料、模型和分析支撐業務各環節決策,使業務更加量化、決策更加科學。
第三個趨勢是更高的互動性,結合AR、VR與NLP技術,透過自然語言的互動,人和平臺之間的溝通互動將持續增強,並且更自然、更流暢。百分點資料科學基礎平臺已經具備了較高互動性,如透過自然語言提問的方式調取資料或圖表。未來,企業的資料科學平臺將以虛擬員工的形式出現,能夠更自然地與員工進行互動。
02 百分點科技定位資料科學基礎平臺,提供廣義資料價值
愛分析:請介紹百分點資料科學基礎平臺產品的佈局邏輯?
劉譯璟:百分點科技基於對市場的理解,將大資料市場劃分為三個層級:底層是計算儲存基礎設施,包括各種資料庫、中介軟體以及資源排程、運維、安全等工具整合;中間層即資料科學通用工具層,具備資料價值實現共效能力,支撐從資料整合、資料治理、資料建模、資料分析到資料服務的完整資料價值鏈條,實現資料增值;上層是各種場景化的資料應用。
圖1: 大資料市場三個層級

打通資料價值鏈,百分點資料科學基礎平臺實現資料到決策的價值轉換 | 愛分析調研

圖2: 百分點資料科學基礎平臺功能架構
打通資料價值鏈,百分點資料科學基礎平臺實現資料到決策的價值轉換 | 愛分析調研
百分點資料科學基礎平臺位於中間層,包含BD-OS資料融合治理、ModelingWorks資料建模和知識生產、KnowledgeHub知識應用三部分。三者共享統一的資料儲存和計算的基礎設施。
資料融合治理解決資料到資訊的轉換問題。資料整合到統一的儲存設施中,透過資料治理提升資料質量,為資料建模做好準備。其中也會做最傳統的數倉建模。
資料建模和知識生產解決的是從資訊到知識轉換的問題。資料完成治理後,成為建模的輸入,透過資料建模轉變成業務知識。根據百分點科技的實踐經驗來看,業內目前主要有三種型別的知識表現形式:第一種是指標,指標在企業中的應用非常廣泛;第二種是標籤,如使用者畫像、商品畫像等;第三種是知識圖譜,可以囊括前兩種,表達能力更強,也更復雜。三種形式的知識都需要依託機器學習模型來構建。
知識應用解決的是從知識到決策轉換的問題。百分點資料科學基礎平臺的知識應用目前以分析類的應用為主,提供了三種形式。第一種是搜尋,為結構化資料,以及非結構化資料如圖片、標籤、圖譜等,提供統一的搜尋入口。此外,也包括部分問答型別、推薦型別的應用。第二種是BI分析,尤其具備BI增強分析能力。第三種主要依託知識圖譜,包含實體分析、關聯分析、時空分析等功能,對知識的要求最高。
愛分析:百分點資料科學基礎平臺的目標客群是哪些?企業在使用資料科學基礎平臺時,是否有共性需求?
杜曉夢:百分點科技的目標客群是資料工程師、資料科學家和資料分析師等資料相關崗位人群。不同的崗位在使用資料科學基礎平臺時側重的功能不同。資料工程師側重資料的採集、多元異構資料的儲存、數倉的建模、資料治理這些功能。資料科學家更關注模型的構建,包括資料的預處理、模型構建、模型最佳化等偏資料探勘的功能。資料分析師更偏向於和知識應用相結合,使用搜尋、推薦、資料視覺化等功能。
百分點科技在服務不同行業客戶的過程中,發現不同行業的客戶使用資料科學基礎平臺時普遍有四個共性的目標:
第一個目標是實現資料融合治理,打造高質量資料資產。這個目標由資料工程師實現,透過彙總企業內部所有資料,實現資料的打通、質量的盤點以及資產的構建。
第二個目標是構建智慧化的工具能力,提供高效洞察與決策支撐。這個主要是資料科學家在做,透過機器學習、知識的構建等系列工具,為營銷、市場、生產、設計、物流等不同業務部門提供決策支撐。
此外還有兩個目標,分別是全方位提升資料應用能力、深化資料與業務的融合並形成高效的運營能力。這兩個目標是由資料分析師或商業分析師與業務人員協作完成。由業務人員提供諮詢,資料分析師結合具體的業務特徵,實現應用的自動化迭代。
愛分析:百分點科技服務的核心行業有哪些?不同行業對資料科學平臺的需求有哪些共同點和差異點?
杜曉夢:百分點科技目前核心服務行業包涵三大板塊:數字產業、公共安全和智慧政務。數字產業包括零售、快消、房地產、汽車、融媒體等;公共安全包括智慧公安、應急管理等;智慧政務包括數字城市、生態環境、營商環境、智慧統計等。
實際上,這三個板塊對資料科學基礎平臺的功能需求各有側重。而造成客戶需求差異的主要原因有兩個:一方面,不同行業的數字化程度進展不一,技術水平參差不齊,比如數字產業的數字化程度較高,對於具體的業務場景的價值關注度更高,即能透過工具、透過資料分析產生怎樣的場景價值、幫助企業產生哪些決策、終端決策帶來怎樣的量化價值等;第二個原因是客戶對於工具和服務有不同的要求,部分數字化水平較高的企業對於工具的要求也較高,希望企業的員工能夠輕鬆靈活的操控工具,而數字化水平一般的組織機構,由於人員的技術能力或資料管理水平相對有限,僅工具不能滿足需求,更傾向工具加服務的形式,要求技術公司的服務人員能基於工具,結合客戶的場景提供決策輔助支援等服務。
總結來看,數字產業中各行業數字化水平、技術理解相對領先,更注重工具的操作性、更關注業務場景價值。
政府行業重視資料資產沉澱。省、市、區、縣等各級政府單位進行的資料開放、資料雲平臺以及資料底座建設等,都是不斷地沉澱和最佳化資料資產、提升資料資產管理能力的過程。政府的資料極具價值,具有將資料開放給社會,促進數字紅利的釋放、深化數字經濟發展的需求,更需要將已有的資料資產盤點清楚。而政府的資料複雜性較高,需要花費大量精力構建數字化底座,因此政府非常注重資料資產的治理。百分點資料科學基礎平臺上的資料採集、資料融合、資料治理等功能,是政府單位非常看重的部分。
公共安全領域重視多模態異構資料的利用。如在公安部門中,常需要進行海量的、多模態資料的融合分析。公安部門的資料除結構化資料外,還有大量的諸如人臉、聲紋、影片等非結構化資料,同時資料規模較大,因此對多模態資料的分析要求非常高。除公安部門外,百分點科技也在幫應急管理部門構建基於知識圖譜的智慧應急應用。
愛分析:百分點科技在資料科學市場中的競爭優勢體現在哪些方面?
杜曉夢:主要有三個方面。首先百分點科技具備完善的資料科學工具集。百分點科技將資料科學價值鏈條上覆蓋的工具都整合到統一的平臺中,包括資料採集、資料儲存、資料治理、資料分析及挖掘、知識構建、知識應用、資料視覺化全流程。這也是百分點科技比較獨特的定位。
其次,百分點科技傾向於提供端到端的解決方案,而不是單一的工具。企業客戶常常不具備完整的資料團隊,如缺失資料工程師或資料科學家,又或者技術人員缺乏工具使用經驗。因此,客戶在選擇資料科學平臺時,選擇的不僅僅是工具,工具解決不了問題。而百分點科技能提供端到端的解決方案,尤其專案團隊包括業務專家、資料工程師、資料科學家,為客戶提供諮詢、服務以及運營支援,協同客戶的人員一起,將資料和工具沉澱到場景中,讓客戶知道工具如何使用,最終帶來場景化價值。
最後,百分點科技積累了13年的行業經驗,尤其在重點行業沉澱了大量的行業知識。一方面體現在百分點科技的業務人員具備行業專業知識和能力,另一方面,百分點科技也將積累的行業知識沉澱到資料科學基礎平臺上,比如在KnowledgeHub中,有知識圖譜的構建、指標體系的管理、標籤的管理等。我們認為豐富的行業經驗和知識也是市場競爭中的重要壁壘。
愛分析:客戶在面臨眾多技術廠商時,應該如何選型?
杜曉夢:行業中有眾多技術廠商,包括雲廠商、側重大資料平臺的廠商,以及像百分點科技這樣偏重資料分析和應用的廠商等,客戶在選擇的時候需要結合自身需求進行考量。若客戶已經上雲,且業務問題比較標準化,從IT標準化和產品的使用習慣出發,可以考慮雲大廠;若客戶偏重於底層儲存和計算能力構建,可以考慮平臺型廠商;若客戶的資料整合、資料開發要求較高,業務場景複雜且需要價值量化,同時要求大量的服務和諮詢,可以選擇側重資料分析和應用能力的廠商。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69993021/viewspace-2935269/,如需轉載,請註明出處,否則將追究法律責任。

相關文章