生成式 AI 正在改變人們與計算機互動的方式,為各行各業帶來前所未有的便利與效率。其快速迭代的節奏也在吸引著全世界的關注。
為構建大模型能力,演算法、算力和資料是三個重要的方向。此前,人們對於演算法和晶片算力關注度甚高,但對於很多企業來說,如何利用好資料同樣是構建生成式 AI 應用的重要挑戰。
近日,亞馬遜雲科技在「無資料不模型 —— 生成式 AI 時代的資料基座」媒體溝通會上,探討了資料在生成式 AI 時代的關鍵作用。
「企業需要的是懂業務、懂使用者的生成式 AI 應用,而打造這樣的應用需要從資料做起,」亞馬遜雲科技大中華區產品部總經理陳曉建表示。「亞馬遜雲科技構建資料基座的三大核心能力涵蓋從基礎模型訓練到生成式 AI 應用構建的重要場景,能夠幫助企業輕鬆應對海量多模態資料,提升基礎模型能力。亞馬遜雲科技正在幫助各個行業、各種規模的企業打造強健的資料基座,在確保使用者業務和資料安全的前提下,將資料的獨特價值賦予基礎模型和生成式 AI 應用,加速企業業務增長。」
亞馬遜雲科技多年來持續引領資料基礎設施的構建,在生成式 AI 時代圍繞資料的三大核心能力,即模型微調和預訓練所需的資料處理能力、利用專有資料與模型快速結合以產生獨特價值的能力,以及有效處理新資料以助推生成式 AI 應用持續快速發展的能力,提出了一系列先進的工具。
面向核心的資料處理工具
在資料儲存方面,擴充套件性和響應速度是關鍵。
Amazon Simple Storage Service(Amazon S3)物件儲存幾乎是雲上擴充套件性的代名詞,它支援廣泛的資料協議,能夠輕鬆應對各種資料型別,還支援智慧分層以降低訓練成本。專門構建的檔案儲存服務 Amazon FSx for Lustre 則能夠提供亞毫秒延遲和數百萬 IOPS 的吞吐效能,能夠進一步加快模型最佳化的速度。
在實踐中,LG AI Research 使用 Amazon FSx for Lustre 將資料分發到例項中來加速模型訓練,開發了自己的基礎模型 EXAONE,透過減少基礎設施管理和提高 GPU 擴充套件效率,降低了約 35% 的成本。
企業使用者面臨著繁重的資料清洗加工任務,Amazon EMR Serverless 和 Amazon Glue 可以幫助企業輕鬆完成資料清理、去重、乃至分詞的操作,讓企業專注於生成式 AI 業務創新。
其中,Amazon EMR serverless 採用無伺服器架構,幫助企業執行任何規模的分析工作負載,其自動擴充套件功能可在幾秒鐘內調整資源大小,以滿足不斷變化的資料量和處理要求。Amazon Glue 是一個簡單可擴充套件的無伺服器資料整合服務,可以輕鬆快速地完成微調或預訓練模型的資料準備工作。
在資料治理方面,企業難以在多個賬戶和區域中查詢資料,也缺乏有效的資料治理工具。Amazon DataZone 讓企業能夠跨組織邊界大規模地發現、共享和管理資料,不但能夠為多源多模態資料進行有效編目和治理,而且還提供簡單易用的統一資料管理平臺和工具,從而為使用者解鎖所有資料的潛能。
讓企業專有資料釋放更大價值
生成式 AI 基礎模型的侷限性之一在於無法及時擁有企業專有資料,透過技術手段加速資料與模型的結合成為企業資料基座的第二項關鍵能力。
生成式 AI 時代,我們需要的資料不止是原始資料,還需要轉化後向量形式的資料。把向量資料和原始資料進行統一儲存或許會是最有效的方法。這意味著原始資料不需要進行遷移,能力在整合後會有更快、更便捷的體驗,使用門檻也更低。亞馬遜雲科技的儲存基礎設施支援了向量搜尋能力。
檢索增強生成(Retrieval-Augmented Generation,RAG)技術被普遍認為是實現資料與模型結合的主要途徑之一,它透過將資料轉換為向量並儲存到向量資料庫中,從而將語義的關聯性轉化為向量間的數學距離問題,以實現內容的關聯性計算。
現代應用程式需精準理解使用者需求並正確關聯產品或內容,這一需求廣泛存在於搜尋、評論、購物車及產品推薦等互動框架中,這些框架又依賴於功能各異的資料庫,這使得資料庫成為實施 RAG 技術的理想平臺。
亞馬遜雲科技將向量搜尋的支援功能加入到主流的資料服務中,透過將資料和向量儲存在一起來提升資料查詢效能。這能夠讓企業輕鬆利用 RAG 技術將專有資料提供給基礎模型,從而釋放更大價值。
此外,亞馬遜雲科技還為圖資料庫 Amazon Neptune 推出了分析資料庫引擎,以結合圖資料庫與大模型的優勢,從而能夠快速從圖形資料中獲取洞察,並進行更快的向量搜尋。
有效處理生成式 AI 應用的新資料
在生成式 AI 應用上,企業如何應用資料?目前有三類持續應用資料的方式,第一類是檢索增強(RAG),把企業已有的資料和文件,與大模型相結合,提供資訊檢索輔助化的能力;第二類是微調,即透過提示工具,讓大語言模型更瞭解實際應用情況;第三類持續預訓練的門檻更高 —— 這需要使用者擁有大量的業務資料,同時把實時產生的資料持續用於大模型訓練。
這三種能力在亞馬遜雲科技的 Bedrock 上都已可以實現。
對生成式 AI 應用程式而言,基礎模型頻繁呼叫將會導致成本的增加和響應的延遲,因此如何處理生成式 AI 應用程式新生成的資料,提升模型呼叫效率成為企業資料基座的第三項關鍵能力。
Amazon Memory DB 記憶體資料庫透過快取之前問答生成的新資料,實現對類似問題的快速響應和準確回答,同時有效降低基礎模型的呼叫頻率。Amazon Memory DB 能夠儲存數百萬個向量,只需要幾毫秒的響應時間,能夠以 99% 的召回率實現每秒百萬次的查詢效能。
此外,生成式 AI 應用程式需要快速佔領市場。亞馬遜雲科技透過提供無伺服器資料庫服務和 Amazon OpenSearch Serverless 用於向量搜尋,最大限度為企業減少運維負擔和成本,消除效能瓶頸,使企業能夠專注於生成式 AI 業務創新。
從亞馬遜雲科技對於資料處理的看重,我們可以看出,在生成式 AI 技術走向落地的現在,企業和開發者正在面臨新的挑戰。對於數字基礎設施的提供者而言,這將帶來新的機遇。
「生成式 AI 發展到今天,使用者所關注的不止是大模型,資料應該是執行的保證,而且是差異化的關鍵,」陳曉建表示。