觀點分享 | 格物鈦智慧科技產品專家李薇:非結構化資料平臺的底層邏輯和場景化實踐

格物钛Graviti發表於2022-03-30

2021年12月30日,由中國人工智慧產業發展聯盟(以下簡稱“AIIA”或“聯盟”)和中國資訊通訊研究院(以下簡稱“信通院”)聯合舉辦的 “AI資料治理技術沙龍”透過騰訊會議進行。格物鈦智慧科技產品專家李薇對非結構化資料平臺的底層邏輯和場景化實踐進行了介紹,分享了自己的見解與思考。

0非結構化資料的現狀


近年來,文字、語音、影像、影片以及點雲等非結構化資料增長迅速,IDC預計未來5年內企業80%的資料將會由非結構化資料組成。非結構化資料具有海量、分散、多樣、異構等特點,目前企業對非結構化的管理也是相對原始和落後的,他們用傳統的檔案管理系統,80%的空間在儲存重複的資料、工程師60%的工作時間在進行資料搜尋、40%的資料處理時間在用於資料從硬碟讀到記憶體和從記憶體寫到硬碟。

非結構化資料管理面臨的挑戰:

1、管理手段原始,沒有成熟的管理工具和手段。

2、資料場景割裂,沒有資料連結的平臺,資料無法串聯到一起。

3、角色分散

4、應用工具割裂

5、流程割裂,面對海量資料管理,沒有適合的流程。

這些問題導致了目前資料管理的人力成本高、時間成本高、管理資料規模無法擴大,造成了資料價值流失。

0高質量資料作用關鍵觀點分享 | 格物鈦智慧科技產品專家李薇:非結構化資料平臺的底層邏輯和場景化實踐

李薇提到,非結構化資料和結構化資料最大的不同,是非結構化資料幾乎無法直接使用,如果想要從海量的非結構化資料中提取出重要資訊,絕大多數情況下依靠的是AI的方法。知名機器學習專家吳恩達一直在強調這樣的觀點,AI模型已經接近固定,AI從 Model Centric 向 Data Centric 轉變,程式碼上的改變已經無法滿足許多應用場景的精度需求,只有透過提升資料的質量才能更快提升演算法結果的準確性。Google有一篇論文講到,在真正設計複雜AI的過程中,演算法只佔據了很小的一部分,核心的內容在資料層面,資料的處理會佔用大量的時間和人力。隨著AI的進一步發展,對資料質量的要求不斷提升,然而高效的資料管理系統缺失為企業AI落地帶來巨大挑戰

0組織方式的變革

觀點分享 | 格物鈦智慧科技產品專家李薇:非結構化資料平臺的底層邏輯和場景化實踐

李薇提到,在AI的發展過程中,傳統的模式是由演算法工程師完成全部的工作,包括資料的採集、標註、訓練和引數調整等,面對資料量級別不斷上升,只由演算法工程師完成是難以實現的,會導致資料管理成本較高,無法支援大規模複雜資料的應用。

隨著現在AI的發展趨勢,組織形式正在不斷演進,職責分化誕生新的功能模組。由資料運維工程師完成資料標註、清洗、增強、聚合等工作,後續再由機器學習工程師完成對模型的訓練,而演算法工程師僅需關注演算法的開發。新的組織帶來協作難度升級,也需要新的系統和工具來支援。

0新一代非結構化資料平臺觀點分享 | 格物鈦智慧科技產品專家李薇:非結構化資料平臺的底層邏輯和場景化實踐

上一代的資料平臺是匯聚傳統SQL資料庫資料支援檢索和分析的平臺,格物鈦智慧科技作為非結構化資料賦能專家,為企業及AI開發者提供全新的智慧時代資料管理方案,以資料引擎為核心技術,打造下一代資料平臺,幫助更好地釋放非結構化資料潛力,助推AI工程化和資料資產化最佳實踐。

此平臺可以支援多維度的非結構化資料,同時透過應用市場對接到不同的資料應用,使使用者的資料在整個研發生命週期中透過平臺進行管理,同時平臺也能將資料的價值運用到各行各業。

簡單來說非結構化資料平臺解決兩個核心問題:資料流轉和資料管理。橫向上可以簡單理解為應用層,格物鈦提供更好的工具讓資料流轉更快,比如資料檢索、視覺化、版本管理、自動化等等;縱向上在基礎和技術層,格物鈦自研資料引擎,就像汽車引擎一樣給資料提供動力,讓它能夠更好地應對海量和複雜度挑戰,實現更低成本、更大規模。

0資料引擎驅動效能革命觀點分享 | 格物鈦智慧科技產品專家李薇:非結構化資料平臺的底層邏輯和場景化實踐

格物鈦自研的資料引擎,帶來三大平臺效能優勢:存算分離、多維度的高效資料檢索和自動化。底層的儲存部分支援多種儲存服務,使用了存算分離的架構設計,可以實現更低成本、更大規模;中間層是跨平臺及儲存方案的版本管理系統和資料索引加速器,可以支撐上層所有資料的應用、也可以更快地進行資料檢索和操作工作;再上層是一個靈活的排程系統,可以基於輕量的系統進行橫向無限擴充套件。另外一部分是允許使用者去自定義程式碼,實現更加複雜的資料轉化以及資料查詢的邏輯。格物鈦資料平臺幫企業使用者築牢新基建底層,驅動海量複雜資料的靈活存取用,讓機器學習更敏捷。

0解決的場景和案例觀點分享 | 格物鈦智慧科技產品專家李薇:非結構化資料平臺的底層邏輯和場景化實踐

格物鈦資料平臺在AI開發過程中重點解決三大場景問題——資料發現、資料迭代、資料流自動化。

發現高價值資料:支援標籤化篩選、視覺化呈現,瞬間實現複雜場景檢索和結果檢視;

高效管理和協同:清晰的許可權管控和版本管理,讓協作更安全、迭代可追溯;

自動化資料處理:自定義工作流和開發者工具無縫銜接,低成本加速資料流動和迭代。

觀點分享 | 格物鈦智慧科技產品專家李薇:非結構化資料平臺的底層邏輯和場景化實踐

格物鈦正在將創新技術與實踐深度結合,助力AI落地和百業智慧升級。以自動駕駛和物流行業為例,格物鈦幫助某自動駕駛公司打造資料閉環,成功將模型迭代效率提升50%;某頭部物流企業利用視覺技術對全國幾百個港口、園區等不同場景下的人、車、貨、倉要素進行全流程管控,每開發一個功能需要3個工程近3個月時間,格物鈦資料平臺解決方案為其把準備週期從以周為單位縮短到以小時為單位,解決了資料量大、資料質量差等痛點,提高了該企業在AI開發過程中的效率,實現了更全面的資料管理和資料採集、篩選、上傳的流程自動化。

李薇總結到,隨著終端全方位感知物理世界和雲的普及,未來非結構化資料潛能會進一步被釋放,利用非結構化資料的AI場景將更為廣泛,演算法模型開發有效提升,促進了AI工程化落地,並已在安防、金融、客服、零售、醫療健康、廣告營銷、教育、城市交通、製造、農業等領域實現商用,達成了規模效應。越來越多的企業將在格物鈦的幫助下釋放積累資料的無限價值。

更多資訊請訪問格物鈦官網

相關文章