讓行業大模型更“聰明”,雲測資料提供標準化資料解決方案

松果財經發表於2023-09-21
讓行業大模型更“聰明”,雲測資料提供標準化資料解決方案

大模型發展風起雲湧,使得AI應用又成為了市場熱點。但這場創新運動和上一輪AI熱潮的背景不同,如今行業不缺技術、也不乏商業模式健康的玩家,最稀缺的資源,已然變成了高質量資料。 大模型的模型從何而來?本質上,就靠海量資料的“餵養”。

不過,這個過程絕非輸入輸出那麼簡單,而是要從收集資料做起,經過系統性工程,在不斷的訓練微調中形成最終的成果,還要將其與應用場景進行適配,融入真實應用。透過“人工”的持續努力實現“智慧”,其難度可想而知。

正因為如此,人工智慧領域,才有越來越明顯的“得資料者得天下”的特徵。考慮到這一工作的投入與難度,普通企業顯然難以自主完成建設。大模型時代,企業需要的新生產力,大機率得向專業人工智慧資料服務商要答案。

今年9月,雲測資料攜“面向垂直行業大模型AI資料解決方案”亮相2023年中國國際服務貿易交易會(簡稱“服貿會”),為行業大模型的發展落地,帶來了專業解法。

讓行業大模型更“聰明”,雲測資料提供標準化資料解決方案

高質量AI模型,靠好資料“養”出來

OpenAI攜GPT驚豔世界,對話式AI令許多使用者耳目一新。但大模型的生產力並不只如此,從國內大廠的通用大模型上線,到海外市場湧現的營銷、金融等領域的專業大模型,這輪熱潮顯然有著類似產業革命的味道,用曾經流行過的話術講:千行百業或許都值得用大模型“重做一遍”。

不過,行業用大模型“重做”意味著,通用大模型並不適合企業直接應用,只有轉化為行業大模型才更容易發揮生產力。 大模型仍然構築於“算力+資料”的底座上,算力可外購,資料則不是好邁的門檻。

一方面,各行各業的發展與AI大模型概念碰撞, 落地的核心仍然是演算法,而演算法的質量又取決於資料的質量。對普通企業來說,配置專門的隊伍進行AI資料工作難度大且價效比不高,且專業性並不一定能滿足大模型建設的需求。沒有高質量的AI資料養料,場景化AI應用將無從談起。

同時,要處理的資料規模也是一大難點。信通院資料顯示,OpenAI自 2020年推出GPT-3以來,超大預訓練模型引數數量、訓練資料規模每年增長300倍,普通企業顯然很難擁有這樣的能力。

但另一方面, 像外購算力一樣採購AI資料服務,也沒有那麼容易。

比如,行業大模型的AI資料來自應用場景,採集能力影響著最終的準確程度,這就要求服務商必須有豐富的場景化意識,瞭解行業需求;大模型更看重人機協作,需要在預訓練後進行持續微調再融入場景,所以針對大模型進行的預訓練環節,含有大量的垂直行業資料,考驗服務商在不同環節的處理能力;而在整個過程中,為了提升把通用大模型轉化為行業大模型的能力,資料服務商必定要有一整套完備的工具、系統和平臺。

讓行業大模型更“聰明”,雲測資料提供標準化資料解決方案

這樣一來,無論是在收集標註等環節的效率,還是垂直行業海量資料集對質量的要求,都對大模型發展趨勢下的AI資料服務提出了新的要求。行業的厲兵秣馬,開啟的是更深度的競爭。

據媒體披露,OpenAI成立8年來,花費高達10億美元用於模型訓練,可見要落地於垂直行業更會難上加難。預訓練、強化學習、人工反饋,無一不是費時費力費資源的工作。只有真正專精的AI資料服務商,才能靠對業務的深入理解、對工具和能力的長期建設,形成規模、效率等多方面優勢。也只有這樣的第三方平臺,才能貼合企業的垂直需求,做到高效、適用性強。

如今,專業AI資料服務商,已經成為破局大模型資料養料問題的關鍵角色。

全鏈條、多行業,雲測資料深度護航行業大模型

對AI資料服務的質量、效率、場景化等方面的要求,本質上是因為AI技術需要深入行業。在深入行業的過程中,大模型所需要的行業資料更多,而面對於行業資料,有許多現實的要求必須滿足。在資料處理環節,機器處理資料與人工處理兩者如何結合確保質量與效率並行;在技術支援方面,資料處理工具的先進性、易用性、豐富性是否可能達到AI專案要求;在企業經營層面,科學的流程管理、完善的交付體系等能力建設是否具備先進性。

所以,市場要求AI資料服務商既要有專門的工具、能力和解決方案,又要能夠提供千人千面且富有行業深度的資料解決方案,滿足不同層次的需求。

雲測資料去年釋出了“面向AI工程化的資料解決方案”,今年則在延續既有優勢的基礎上,面向行業大模型建設中存在的普遍性問題,升級釋出了面向垂直行業大模型AI資料解決方案。為行業大模型的發展提供從持續預訓練、任務微調、評測聯調測試到應用釋出的端到端過程中的高質高效資料,從基礎設施層面,打牢行業大模型的根基。

讓行業大模型更“聰明”,雲測資料提供標準化資料解決方案

這種全鏈條能力,來自雲測資料長期積累的經驗與技術。一方面,雲測資料長期深耕智慧駕駛、智慧家居、電商、智慧金融等領域,對場景的理解十分深入,而這大大提升了構建行業大模型、應用於場景的能力。

比如在智慧駕駛領域,雲測資料作為唯·一一家訓練資料服務代表廠商,參與《智慧網聯汽車場景資料影像標註要求與方法》《智慧網聯汽車鐳射雷達點雲資料標註要求及方法》的編制工作,同為共同編制單位多為中國科學院自動化研究所、中國汽車技術研究中心、北京汽車研究總院等單位,可見雲測資料的專業水平。

除了對專業場景的深入理解,雲測資料的優勢還在於擁有面向行業場景的資料採集能力和豐富資料集積累,透過其採集場景實驗室可提供生物認證、智慧座艙、家庭場景、語音互動等豐富的場景資料樣本,覆蓋影像、語音、文字等多模態型別,可以在廣泛、持續的基礎上,為行業大模型預訓練提供賦能。

另一方面,雲測資料在長期服務實踐中,逐漸對需求進行解構,可以透過不同維度、不同形式的資料觸點,基於客戶需求進行定製化資料服務。並且,由於具有多維度的資料採集工具,以及豐富的資料交付經驗,雲測資料擁有與資料內容更新頻率相匹配的訂閱式採集能力,這就為適應場景的變化、適配使用者需求的迭代打下了基礎。

總結而言,作為專業AI資料服務商,雲測資料已形成一套針對多模態、多工需求,進行標準化、工程化資料服務的模式。在大模型深入千行百業的過程中,用高質量AI資料服務,促成高質量行業大模型的誕生。

用更高質量的資料服務,助力產業跑出加速度

無論哪種大模型,要轉化為企業生產力,就要先具備融入生產流程、融合企業能力底座的條件。 從“面向垂直行業大模型AI資料解決方案”的發展環節看,也就是全環節都要與企業需求契合,把資料的高質量作為一種標準去執行。

在持續預訓練環節,雲測資料透過前文提到的定製化場景化資料採集能力,以及持續訂閱服務能力,在金融、電商、智慧駕駛等領域,根據企業要求完成資料的採集、清洗、分類,做到資料的優中選優。其中,雲測資料標註平臺、工具支援整合API介面能力和科學的作業協同能力,在保證資料處理精度的前提下大大提高了資料流轉效率。

在下游任務微調階段,也就是對人機協作的最佳化上,雲測資料始終堅持用更完善、靈活的標註工具,對多模態資料進行細緻的微調,適配人機耦合的需求,讓大模型更精準。 公開資料顯示,雲測資料的標註平臺最高交付精準度達到99.99%,並提供包含QA-instruct、prompt等文字類任務專案和多模態大模型的相關能力支援,竭力保證資料處理的成效。

讓行業大模型更“聰明”,雲測資料提供標準化資料解決方案

而在聯調灰度釋出環節,雲測資料充分展示了對專業化、場景化和業務系統整合的關注。

雲測資料特定領域的專家池,對家居、駕艙等各類垂直場景具備深度瞭解,能夠根據實際場景提出獨特有效的互動內容。在RLHF(Reinforcement Learning from Human Feedback)過程中,靠人工專業性帶來更高質量的反饋,提升最終的資料質量,放大模型價值。與此同時,透過對企業需求的解讀,雲測資料可以搭建真實場景實驗室、基於特定場景的樣本資源池,對行業大模型進行垂直領域的深度測試。

最後,雲測資料提供標準API介面,透過以整合資料底座為核心的資料標註平臺,一邊輸出經過多輪質檢的資料,一邊收集難例資料以迴流完成清洗標註,讓模型調優成為一個持續的程式,並對接各類業務系統,成為最終可以正式釋出的產品。

據此,我們也可以認為, 雲測資料本質上已為有需求的使用者打造了一套“保姆式”服務——有場景化資料採集能力和高精度專業資料標註能力,有針對多模態任務處理的先進資料處理平臺,有嵌入使用者業務系統的API工具和專案管理體系。落地行業大模型應用,從此不再可望不可及。

正如雲測資料總經理賈宇航所說:“AI資料質量,決定著演算法的精度,AI演算法精度決定產品質量。”人工智慧領域的頂尖學者吳恩達也表達過此觀點,即人工智慧的價值需要吸收標註的高質量資料而釋放,高質量資料的增加,會催化人工智慧更快發展。中國市場資料規模不可估量,市場前景廣闊,競爭因此更重視質量。雲測資料堅持的場景化、標準化、工程化,就像在幫助AI資料服務走向工業時代,讓資料價值的釋放像泉水一樣,源源不斷。

此前,“資料二十條”等政策層面激發資料要素活力、豐富資料應用場景優勢的綱領,讓資料市場如烈火烹油。大模型一出,更讓企業視資料為新時代的“石油”。大模型發展的視窗期,自然也成為了AI資料服務突飛猛進的視窗期。

但最後,誰能在這條賽道跑得更遠,最終要看能否為客戶創造價值,跑通正迴圈。當前談最終勝利還為時過早,但有一點可以肯定,對已經形成成熟解決方案的雲測資料來說,紅利期,已經開啟了。

來源:松果財經


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70017000/viewspace-2985161/,如需轉載,請註明出處,否則將追究法律責任。

相關文章