從智算到密算,大模型資料困境新解法 | 智者訪談

机器之心發表於2024-07-08

大模型產業發展,需要可信中立的資料深加工平臺,如何填補空白?

2024 世界人工智慧大會(2024 WAIC)落幕,圍繞「演算法、算力和資料」AI 三大要素如何持續演進發展的討論,貫穿了三天的會期,全球頂級學者帶來前沿構想,產業界帶來創新的解決方案。

最為聚焦的還是大模型從通用走向應用,如何在這三個維度上實現突破性的進展。其中的共識是,高質量的資料供給是大模型產業發展的關鍵,是決定大模型是「專家」或是「磚家」一條分界線。

然而,獲取高質量資料的核心在於資料安全可信流通,打破資料孤島這一老問題,在新的產業變革趨勢下,變得更為緊迫。企業和行業之間由於對資料安全、隱私保護以及商業利益的擔憂,往往不願或不敢共享資料。不同企業的資訊系統架構不同、格式各異,使得資料難以互通,同時資料標準化程度低,缺乏統一規範,進一步增加了資料整合的難度。

螞蟻集團副總裁兼首席技術安全官、螞蟻密算董事長韋韜認為,資料供給決定了大模型能力的上限,而隱私計算技術決定了資料跨域供給的上限。當大模型從通用走向專業應用,從技術想象力走向產業的生產力,必須要解決高質量資料集稀缺與專業資料阻滯的挑戰,否則大模型作為「智力引擎」,只會陷入空轉。

資料融合的價值潛力巨大,卻常常卡在價值驗證這一環。深層次的資料探勘往往意味著多方資料的融合。然而,找到一箇中立可信、具備規模化資料深度加工能力的第三方機構,對接各方資料進行融合分析,目前仍是一大挑戰。

圖片

螞蟻集團韋韜:資料密態化是大模型產業未來之路從智算到密算,大模型資料困境新解法 | 智者訪談

大模型密算平臺:基於雲服務的破題嘗試

高質量資料供給和安全流通,是大模型進入垂直領域應用的首要挑戰。

行業大模型要獲得解決專業問題的能力,首先要經過數量充足、質量高的專業資料訓練。然而,專業資料往往分散在不同的機構、企業中,並且由於價值大、保密要求高,難以流動。此外,在企業、大模型廠商和使用者之間存在信任壁壘,企業擔心資料對外洩露,大模型廠商擔心模型資產安全,使用者擔心個人資料和隱私風險。

和多家機構交流後,螞蟻密算 CEO 王磊發現他們主要有三方面擔心:其一,資料非常容易被複製,資料供出來後,會不會被拿走、濫用。其二,行業大模型某種程度上是資料的衍生品,大模型是會「記住」資料的,資料安全和資料價值沒辦法得到保證。最後,在資料「供出」後,資料供給方和模型提供方都希望能夠持續分潤。但怎麼知道模型被誰用了、用了多少次以及盈利情況,行業參與者之間難以建立信任機制。

構建行業大模型,核心是要有行業資料。但是當資料安全、資料價值保護不能夠解決時,機構不願意把資料提供出來,構建行業大模型就無從談起。「我們認為,密算是大模型產業深入應用的必經之路。」王磊說。

7 月 5 日在 2024 WAIC 上,螞蟻密算(全稱浙江螞蟻密算科技有限公司)釋出了隱語 Cloud 大模型密算平臺,這也是這家剛成立一個月的「創業公司」面向市場推出的第一款產品。

「隱語 Cloud 大模型密算平臺」透過軟硬體結合的可信隱私計算技術,在大模型託管和大模型推理等環節實現資料密態流轉,保護模型資產、資料安全和使用者隱私。大模型密態託管,指模型提供方可以將模型加密後託管在平臺上,一鍵完成雲上密態部署,保護模型資產不被洩漏和盜用;大模型密態推理,是指資料以密態形式完成推理,保護使用者互動時的資料安全、商業機密等。

圖片

效能上,平臺支援 GPU 在可信執行環境下進行計算,使得大模型推理在密態形式下的響應時間和使用效率與明文大模型接近,實現規模化商業可用。安全保障上,利用記憶體、磁碟加密等方法,實現使用者訪問的端到端加密和託管模型的跨域訪問控制。易用性上,支援輕量化遠端認證,使用者在網頁訪問時就可以完成遠端認證,不需要額外的操作步驟。

在實踐中,大模型在垂直行業應用時,許多企業傾向選擇私有化部署方案,來應對資料安全挑戰。然而,私有化部署成本高,即使已經從早期一兩千萬,下降到現在的一兩百萬,對很多機構來說,依然沒有足夠的預算。其次,私有化部署模型的更新迭代很慢,更新時間短則一個月,長則幾個月才能完成。因此,私有化部署,也被一些業內人士認為是以更高的成本、更低的效率,換取「體感安全」的妥協路徑。

如何在雲上提供密態計算服務,這也是隱語 Cloud 大模型密算平臺,選擇切入市場的差異點。根據產品介紹,該平臺提供公有云和專有云交付方案,支援市面上主流的通用大模型。以公有云為例,模型提供者可以一鍵加密上傳自己的大模型,10 分鐘即可完成高可用推理服務的釋出。使用者透過網頁就可以實現對模型的加密訪問,無需感知到複雜的加密過程,即開即得。

圖片

王磊透露,未來也會在大模型的密算產品上做持續的打磨,主要是在兩個維度的提升:第一,從資料標註到線上推理全鏈路的密算能力增強,這次先推出的功能是大模型密態推理和大模型密態託管。第二,採用多重密算技術防禦,適應不同場景,平衡安全性和成本。

市場經濟發展的不同階段,一直在解決信任的問題。不論是立法、市場規則,到近幾十年技術迭代,都是在不斷夯實商業信任的根基。比如,在電子商務發展初期,為解決淘寶平臺上買賣雙方的信任,支付寶應運而生,作為一箇中立的平臺,提供「擔保交易」服務。

在大模型市場中,資料流動的鏈路更多複雜,在資料提供方、模型提供方以及使用者之間的信任,同樣需要一家中立平臺來提供技術服務。在韋韜看來,這就是密態計算的意義所在。

如果說支付寶首創的「擔保交易」見證了中國電子商務井噴式的發展,螞蟻密算要在更為複雜的資料可信流轉鏈路中,構建更多參與主體之間的信任,見證資料要素市場化的大潮。

破局隱私計算成本難題

技術創新與市場機制雙管齊下

從 2016 年開始深耕隱私計算領域,歷經技術探索、場景探索和規模化應用等階段,到今年 6 月份,由螞蟻集團全資控股的螞蟻密算科技有限公司正式設立。

外界普遍認為,在螞蟻集團在 5 月底公佈未來的科技戰略聚焦「人工智慧和資料要素技術」後,這是在科技商業化上的最新落子。專門成立一家公司,參與到資料要素市場之中,在國內一線大廠裡,螞蟻顯得尤為堅定。

韋韜透露,這個動作是深思熟慮後的果斷決策。首先是基於螞蟻對未來的判斷,「我們認為,未來大規模高價值的資料要素流轉,一定是以密態的形式進行的,而密態計算是資料要素可信流通的重要支撐技術。」

當前,資料要素市場的建設正在提速。今年 1 月 4 日,國家資料局等部門關於印發《“資料要素×” 三年行動計劃(2024—2026年)》的通知,提出到 2026 年底,資料要素應用廣度和深度大幅擴充,在經濟發展領域資料要素乘數效應得到顯現。圍繞這一目標,資料要素市場正在快速集聚資金、人才和技術。

然而,構建資料要素可信流通體系,不論是技術服務市場的建設,或者技術標準體系的建立,許多挑戰亟待解決。從技術能力上,隱私計算的技術價值無可非議,市場上也有大量未被滿足的需求,然而高昂的成本制約了規模化應用。如何從小眾的「奢侈品」變成「公共服務產品」,把密態計算的成本降下來,是螞蟻密算走向市場要啃的硬骨頭。

隱私計算的成本之高,是技術複雜性導致的。由於其涉及密碼學、人工智慧、計算機體系結構等多學科的交叉融合,技術開發難度大、門檻高,導致研發成本居高不下。近年來,也有一些業界人士認為,脫離隱私計算技術的業務價值來談成本,正如脫離安全來談發展一樣,是一個偏頗的觀點。

在韋韜看來,如果單純看技術鏈路的成本,應用隱私計算後,成本肯定更高。但綜合考慮商業因素、人為因素、技術因素和合規因素等,隱私計算技術的成本是更低的。「明文計算看起來算起來很簡單,一旦洩露,需要付出巨大的代價,包括商業利益的損失、連帶的法律風險等等。」

在資料跨域流通的大趨勢下,隱私計算技術的成本之高,顯得更為突出。由於對流動中的資料實現有效管控,密碼學是技術界公認的本源技術。然而,但單純使用密碼學技術,由於效能和成本原因,更難以大規模應用。

圖片
2024 世界人工智慧大會期間,公眾在螞蟻集團展臺瞭解隱語 Cloud 大模型密算雲平臺。圖片來源:2024 WAIC

如何降低隱私計算的應用成本,在商業上更具規模化可能,是一個集技術創新、構建技術標準和市場化機制等多方面合力的結果。

在技術方案上,螞蟻提出了軟硬體技術結合的技術融合路線,透過可信晶片和機密計算技術來協同保障,平衡隱私計算的效能、成本和安全,實現低成本密態計算。第二步,在產業應用上,先在高需求、高價值資料場景中應用,在實現規模化後,降低邊際成本,進而服務更多的場景。這個與雲端計算的商業化過程,也有著高度相似之處。

規模化推廣的成本臨界點在哪裡?韋韜認為,讓密態計算成本低於資料流通價值的5%,就能夠實現規模化推廣。這一判斷來自螞蟻在隱私計算的產業應用探索,在多個金融場景中,已經成為了現實。

農業農村部大資料發展中心與網商銀行、螞蟻集團聯合發起的「農戶秒貸」服務,基於隱語與星綻可信隱私計算技術棧,聯合搭建金融風控模型,結合網商銀行大山雀風控系統,發起農戶秒貸服務。截至今年 5 月,超 600 萬農戶獲得貸款額度,累計授信 964 億元,其中約 8 成農戶種植面積不到 10 畝。該專案還入選了國家資料局「資料要素x」典型案例。

另一個破題的方向,是為不同的資料場景,匹配最合適的技術路線,殺雞無需宰牛刀。實際上,資料有分級分類,那麼在對技術進行安全分級後,兩者間建立對映關係,根據資料場景匹配最合適的技術路線,是最具價效比的選擇。

韋韜透露,針對不同資料流通場景對安全、效能和成本的不同訴求,螞蟻密算公司將提供靈活的解決方案。對於一般資料處理,目前可將密算成本控制在明文分散式計算的 2 倍以內;對於涉及重要資料,在達到高安全級別的同時,可將成本控制在明文分散式計算的 10 倍以內。

技術方案和技術標準,是在解決應用過程中的問題,那麼當黑天鵝事件真的發生,如何來兜底?參考國外的行業實踐,網路安全保險(Cyber Security Insurance),被認為是可行之道。

資料安全保險之於資料產品交易,如同交強險之於道路交通。韋韜認為,正如在道路交通中,駕駛員的責任不僅限於自身安全,資料產品交易也不僅僅關乎交易雙方,一旦發生資料洩露,其潛在風險可能波及個人隱私、行業利益乃至國家安全。

透過這種市場化的機制,企業可以更加清晰地認識到資料洩露的風險成本,並主動加大安全投入,從而降低整體風險,形成良性迴圈。歐美國家在個人資訊資料交易等領域已開始強制要求購買網路安全保險。

資料要素市場,來了一家新的創業團隊

過去幾年,資料要素市場面臨著變現場景不足的挑戰,除風控和營銷外,大量非結構化資料尚未被充分利用。但大模型橫空出世,迅速進入產業化階段,成為資料要素市場的一大關鍵增量。

當下,隱私計算市場尚處於探索期,儘管面臨著技術、應用、法律法規等方面的挑戰和風險,但整體向好毋庸置疑——市場規模持續擴大,應用場景不斷擴充;技術創新持續推進,效能和安全性不斷提升;行業標準逐步完善,生態體系日益成熟。

中國在資料要素市場的建設上,具有獨特的優勢。政策和法律法規層面,政府高度重視資料安全和隱私保護,出臺了一系列切實可行的法律法規,為資料要素市場的健康發展保駕護航;技術層面,除了螞蟻集團,藍象智聯、微眾銀行、同盾科技、洞見科技、富數公司等多家創企和阿里、騰訊、百度、華為京東、位元組、平安等巨頭也都有豐富積累,並在不斷突破效能瓶頸。

對於螞蟻密算公司來說,如何平衡資料安全與商業利益,如何構建可持續發展的密態計算商業模式,如何應對日益激烈的市場競爭,趟過這片的深水區,是接下來發展的關鍵。

韋韜告訴機器之心:我們選擇把科技和生態上的積累,用商業化的方式對外開放,因為只有當商業的模式健康運轉起來,技術的迭代才會可持續地發展起來。

「我們相信,整個行業將會從通算、智算走向密算。密算是資料可信流通的一個基本色,並且一定是整個行業發展的最優解。未來,密算會成為資料可信流通的新算力,但在那之前,還有很多的工作要做。」他說。

相關文章