2024 年資料管理在人工智慧中的四大趨勢

qing_yun發表於2023-12-27

在 2023 年即將結束之際,我們會發現隨著 ChatGPT 的引入,世界發生了不可逆轉的變化。人工智慧的主流化繼續以強勁勢頭推進,我們如何應對這些不斷變化的時代需要信念的飛躍。人工智慧可能同時具有潛在的變革性和不準確性!但我們的未來不僅僅是人工智慧,因為我們仍然需要繼續提高資料管理水平。

2024 年的資料與人工智慧的趨勢與管道和啟用有關,特別是對於關注資料質量、平臺架構和治理的人工智慧而言。服務於多種資訊角色的自主代理和任務助理可以部分或完全自動化所需的活動。此外,用於生成高質量資料集的工具可以在人工智慧模型開發生命週期的各個階段提供不斷改進的模型。以下是 2024 年的四個主要趨勢:

  1. 智慧資料平臺

  2. 人工智慧代理

  3. 個性化人工智慧堆疊

  4. 人工智慧治理

一 智慧資料平臺

如今的資料平臺很大程度上是一個“記錄系統”堆疊,它將來自各種企業資料庫和應用程式的資料彙集到一個公共儲存庫中。當前,該堆疊的主要用例是報告和分析,在極少數情況下是資料驅動的自動化。還有什麼比在資料平臺中注入智慧來加速人工智慧資料產品和應用程式在整個企業中的採用更好的呢?

我們將智慧資料平臺定義為大語言模型(LLM)基礎設施是核心資料平臺一部分的平臺。該智慧層可用於將智慧注入兩種應用程式:

  1. 核心資料應用程式:這些應用程式包括人工智慧驅動的資料操作、語義搜尋和發現代理、人工智慧輔助攝取工具、人工智慧輔助資料準備和轉換以及用於資料分析的對話式人工智慧代理。當代理透過從錯誤中學習進行推理時,此類應用程式的自動化程度只會變得更好。

  2. 智慧應用:智慧化的人工智慧代理是第二種應用趨勢。

下圖顯示了智慧資料平臺以及 AI 代理和應用程式的示意圖。

智慧資料平臺是當前以倉庫/湖為中心的資料平臺環境的下一個演進。隨著對簡化消費介面的渴望,智慧應用程式將推動未來十年的生產力。到 2024 年,企業需要認真審視當前的資料平臺架構,並解決與資料孤島、資料質量和重複以及堆疊元件碎片相關的挑戰。高質量、精選的資料和後設資料是生成式人工智慧計劃成功的關鍵。智慧資料平臺以及相關的資料應用程式將為人工智慧用例支援提供基礎資料和建模層基礎設施。

二 人工智慧代理

“人工智慧代理”一詞在 2023 年下半年成為一個流行詞。人工智慧代理是一個程式或系統,可以感知其環境、推理、將給定任務分解為一組步驟、做出決策並採取行動。像人類一樣自主地完成這些特定任務的行動。

語言理解的終極意味著人類可以透過自然語言介面與人工智慧程式進行對話、指導和互動。但人工智慧程式除了幫助和回答與資訊任務相關的問題(例如搜尋、提取或生成程式碼和/或影像)之外還能做更多的事情嗎?

人工智慧代理能否擴大當今需要更多人工干預的任務自動化領域以及需要高層次思考、推理和解決問題的認知任務?例如,執行市場分析、風險評估和投資組合最佳化等任務。或者,執行迄今為止由於複雜性或成本而不太可能自動化的複雜任務。當今人工智慧代理/技術承擔顯著提高業務生產力和人機介面的任務的能力主要因為有經濟價所值驅動。

早期的研究嘗試圍繞數學相關活動、思想鏈/圖和基於LLM的多步驟推理框架來展示自動化複雜任務的能力。這些早期的預言遠未達到構建完全自主的資訊代理應用程式所需的目標,但它們展示了可能性的潛力。

下顯示了一種架構,該架構提供了一種通用正規化,該正規化結合了推理和行動的進步以及圍繞該正規化的早期工作,例如“思想鏈”,以解決各種語言推理和決策任務。這種推理和行動與語言模型的耦合使這些程式能夠執行決策任務。這種正規化被稱為“ReAct”。

人工智慧代理可以協助資料任務的自動化,例如資料分析、BI 儀表板開發、流程最佳化、資料輸入、排程或基本客戶支援。他們還可以自動化整個工作流程,例如供應鏈最佳化和庫存管理。下面描述人工智慧代理所採取的步驟,使使用者能夠透過動態建立想法/計劃並調整行動計劃來動態執行推理任務,同時還可以與外部互動將附加資訊合併到推理中。

  • 該流程的第一步是選擇一個任務,並提示LLM將一個問題分解為一堆想法(子提示)。

  • 步驟2、3、4,進一步使LLM能夠打破這些一堆想法,並思考和推理出這些子想法。

  • 第 5 步到第 8 步使 LLM 能夠進行外部互動,例如根據完成想法/任務所需的資訊提取資訊。

  • 自由形式的思想/行動整合用於實現不同的任務,例如分解問題、提取資訊、執行常識/算術推理、指導搜尋制定和綜合最終答案。

人工智慧資訊代理是一種趨勢,這可能會持續多年;預計 2024 年將在代理基礎設施/工具以及早期採用方面取得重大進展。需要指出的是,我們如何理解當前人工智慧架構承擔更復雜任務的潛力,很大程度上仍然取決於潛力,而且還有很多未解決的問題。

儘管如此,企業必須以一種實用的方法來構建代理應用程式,並期望在某種程度上,與當前人工智慧技術的差距將呈現出越來越複雜的自動化,而且這種差距可能會逐年縮小。它還必須考慮未來 12 個月內各個用例可能實現的自動化程度。此類專案的進化路徑/旅程可能會透過此類努力取得更好的成功。

三 個性化人工智慧堆疊

第三個趨勢包括透過三種方法個性化或定製模型和/或其響應:

  • 使用更多上下文資料微調模型。

  • 改進用於訓練或微調模型的資料集,包括合成資料。

  • 使用向量搜尋來利用具有相關資料的模型。

A 微調模型

雖然像 OpenAI 的 GPT-4 這樣的基礎模型為企業提供了一個機會來原型化生成式 AI 模型用例的潛力,但它們並沒有充分解決企業資料的隱私和安全性、所使用的視覺化資料的開放性等問題訓練此類模型的能力,針對特定要求對其進行微調的能力,實現任何給定任務所需的準確性以及總體成本價值主張。

為了超越原型和獲得更好結果的需求,我們可能會看到定製或特定任務的小語言模型 (SLM) 的興起,特別是在利基和垂直應用程式中。這些模型將利用基礎/預訓練基礎模型作為訓練 SLM 或使用領域/企業資料進行微調的起點。下圖顯示了模型微調的生命週期

簡化定製 SLM 的開發、實現此類模型的生命週期管理並將其從實驗到部署仍然是一項挑戰:

  1. 基礎LLM選擇:有多個、易於理解的選項,但缺乏支援性的詳細評估可能會使選擇基礎模型變得混亂和令人畏懼。

  2. 參考資料集:在訓練和RLHF微調以及模型評估和測試過程中需要參考資料集。參考資料集的可用性和建立仍然很費力,通常是主觀的,並且很大程度上依賴於人類。原始任務/領域特定或合成資料的可用性可以顯著加快模型開發的速度並縮短開發時間。

  3. 微調模型:將指令微調模型與現實世界對模型效能的期望進行調整和調整所需的關鍵訓練步驟之一是應用人類反饋。這一步驟使模型能夠減少幻覺、偏見、危害並提高安全性。引數高效微調 (PEFT) 和 RLHF 是流行的常用技術,有助於根據任務/領域特定上下文微調基礎 LLM。儘管現有技術得到了顯著改進,但由於語言響應驗證的創造性,高質量的任務/領域特定提示響應對/資料集和參考資料集(包括所需的人類反饋)仍然是手動的、費力的,並且容易發生變化。

  4. 測試和評估模型:對處理複雜的自然語言的微調模型的評估取決於任務創造力和響應評估,這通常是手動和主觀的。雖然現在可以使用各種指標和技術,但它們通常不足以評估模型。來自另一個參考或高階模型的響應等技術用於生成參考評估資料集,以幫助提高評估階段的效率。模型還必須經過安全性、偏差和危害測試。

微調模型所需任務的成功取決於仍不成熟的人工智慧治理領域。人工智慧治理是一種上升趨勢,需要提供模型的可解釋性,以建立信任並滿足監管合規性。它還用於實時監控任何效能下降、負責任的使用、成本和產品可靠性問題的及時響應。

圍繞 AI 模型開發、生命週期管理、部署和監控的工具可用性的興起,解決上述挑戰並簡化模型開發和生命週期管理,是 SLM 和任務特定模型成功的關鍵。

請注意,特定任務的人工智慧模型仍處於實驗階段,還有很多未解決的問題。這將導致大量此類實驗可能會失敗。儘管如此,這個主題在 2024 年整個生態系統的投資將會增加。

B 高質量資料生態系統

雖然使用數萬億個引數進行訓練的模型(例如 OpenAI 的 GPT-4)增加了它們的知識庫,但最近的實驗表明,使用更好資料的更小模型可能能夠超越 OpenAI 現在所說的非常大的 LLM 的“前沿模型”。 ”

通用模型和自定義模型的高質量資料集的可用性仍然是一個大問題,且不受隱私和版權的影響。大多數LLM預培訓都是基於基於網際網路的網路抓取資料集、書籍和一些源於學術界或研究的實驗資料集。雖然可以為微調階段獲取一些資料集,但根據任務/領域,此類現成資料集的選擇會進一步縮小。

通常,甚至沒有足夠的資料來訓練模型。以欺詐為例。據推測,組織並沒有充斥著猖獗的欺詐行為,因此對欺詐場景的瞭解有限。但他們需要使用廣泛的欺詐可能性來訓練模型。合成資料是提供高質量資料以提高LLM研究和開發速度的答案。

合成資料可以定義為不是直接從任何現實世界資料獲得的資料,而是模仿現實世界資料的屬性和特徵而人為建立的資料。綜合資料集可能是提供高質量資料的辦法,以提高許多用例中的LLM研究和開發速度。

使用合成資料的主要優點之一是它可以保護終端使用者的隱私,遵守版權問題,並使企業能夠滿足原始來源的隱私要求。也避免了資訊的無意洩露,同時模型研發不斷取得進展。合成資料對於滿足訓練大型語言模型不斷增長的需求非常重要。透過正確的解決方案,可以以經濟高效的方式解決大型語言模型所需的高質量資料,併為人工智慧研究、模型開發和評估提供持續動力。有一些想法可以使用前沿模型本身生成合成資料集。儘管如此,很明顯,建立和使用合成資料集有可能解決日益飢餓的模型對更多資料的需求。

我們知道,考慮到任務的性質,這樣的生態系統/服務線在解決高質量資料集的需求方面發揮作用有很大的動力。如今,各種初創公司和服務提供商專門致力於圍繞通用培訓資料需求提供帶註釋的影像和文字資料。然而,有可能進一步擴充套件這些服務,以包含領域/任務特定資料集的需求,這一趨勢可能會在 2024 年出現勢頭。

C 整合向量資料庫

選擇向量資料庫具有挑戰性。有多種因素在起作用,包括可擴充套件性、延遲、成本、每秒查詢次數等。傳統資料庫的主要用例是關鍵字查詢與使用上下文搜尋。大多數企業應用程式可能需要這兩種功能。因此,我們的選擇是在傳統 DBMS 中引入向量資料庫功能。

大多數未來的企業人工智慧應用程式都需要處理結構化和非結構化資料。管理多個資料庫會導致效率低下、潛在的競爭條件、OLAP 資料與向量資料庫中的向量索引之間的資料不一致以及導致資料不一致的管理開銷。

因此,整合向量資料庫最適合需要最佳查詢功能和語義搜尋的應用程式。例如,向量資料庫不僅可以嵌入組織的財務報告,還可以對這些資料模型建立索引並將它們儲存在同一資料庫中,同時提供語義/相似性搜尋功能。

許多 DBMS 和 Lakehouse 參與者正在將向量嵌入和搜尋功能納入其現有產品中。隨著企業構建和部署 LLM 用例,具有語義搜尋功能的整合資料庫/湖屋可能會在 2024 年獲得進一步的關注。

構建人工智慧應用程式的最常見技術是檢索增強生成(RAG),它結合了LLM和組織業務資料來提供對自然語言問題的響應。RAG 整合了一個流程,在呼叫 LLM 完成 API 之前,首先搜尋向量化資料的相似性,從而提高響應準確性。

我們看到兩個影響 RAG 用例的趨勢。其中之一與不斷增加的 LLM 上下文大小有關,它可以直接獲取輸入資料,而無需透過資料庫進行路由。這降低了執行額外且複雜的 RAG 步驟的需要。然而,這並沒有減少對向量資料庫的需求,因為它們預先過濾了LLM的提示,這使得人工智慧應用程式具有成本效益和高效能。他們還可以快取提示及其響應,從而避免對 LLM 進行不必要且昂貴的 API 呼叫以進行重複查詢。這些精選資料將來可用於微調組織的 SLM。

四 人工智慧治理

高管們要求他們的領導者快速跟蹤人工智慧專案,因為他們渴望從所有結構化和非結構化資料資產中提取前所未有的見解。然而,IT 領導者知道,將人工智慧應用到底層資料基礎設施絕非易事。他們知道人工智慧應用程式的成功取決於確保資料質量、安全性、隱私和治理。因此,需要人工智慧治理。但它到底是什麼?

人工智慧治理,就像資料治理一樣,需要一個共同的定義。事實上,人工智慧治理應該與資料治理齊頭並進。

與傳統人工智慧相比,生成式人工智慧的使用者範圍要廣泛得多。此外, AI代理還引入了向量搜尋、RAG和提示工程等新概念。因此,現代人工智慧治理必須滿足多種角色的需求,例如模型所有者和驗證者、審計團隊、資料工程師、資料科學家、MLOps 工程師、合規性、隱私和資料安全團隊等。

在最高層面,人工智慧治理需要跨兩個層面應用

  • 模型訓練或微調:治理任務包括識別正確的資料來源、其保真度、資料漂移、模型權重和評估結果。比較版本之間的模型指標的能力可以進一步幫助瞭解模型效能的趨勢。具體來說,在 CPU 和 GPU 上使用不同模型的每次迭代的訓練成本是人工智慧治理的重要考慮因素。目前,由於資源要求非常高,參與基礎模型訓練的廠商很少。隨著近年來這些成本的下降,越來越多的團隊正在進行微調。隨著成本進一步下降,我們可能會看到更多的組織或部門訓練自己的模型。

  • 模型使用/推理:治理任務需要確保業務使用安全。任務包括風險識別和風險緩解、模型的可解釋性、成本以及使用人工智慧模型實現業務用例目標的效能。

下圖顯示了人工智慧治理計劃的構建模組。

人工智慧治理計劃由四個構建模組組成:

1.模型發現

模型正在快速激增,反映了該領域的動態和不斷擴充套件的性質。到 2023 年底,Hugging Face 的模特數量已接近 50 萬。問題是,當這些出現在您的人工智慧框架(如 Google Cloud 的 Vertex Model Garden 或 AWS Bedrock)中時,開發人員將開始使用其中的一些,無論是否經過風險管理和合規團隊的批准。為了克服這個問題,許多人開始採用模型目錄。

在這裡,目錄的目的是發現正在使用的模型、它們的版本號和批准狀態。它還記錄了模型的所有者、其目的和用途。對於批准的模型,目錄將顯示用於訓練模型的資料集、模型的評估方式及其公平性評分。風險記分卡捕獲模型的漏洞及其影響,並應定期審查以確保風險在閾值內。

理想情況下,模型目錄應該是資料目錄的擴充套件,這樣就不存在資料和人工智慧治理的碎片。

2.模型消費

在模型消費中,人工智慧治理的重點是將業務用例對映到批准的模型並識別資料安全風險。人工智慧治理的這一部分處理對企業資料的不安全使用、提示注入和資料丟失的擔憂。

它還負責跟蹤整個模型生命週期譜系,包括法律、CISO、CDO、審計師等的批准,一直到模型退役。控制到位後,它可以加快模型部署到生產中的速度。

治理工具不僅應該允許識別偏見、危害、洩露、智慧財產權侵權等領域的風險,還應該記錄風險緩解策略。人工智慧治理工具應該有助於提供模型的可解釋性。

3.持續監控

一旦部署了批准的模型,他們需要有一種機制來跟蹤它們的大規模表現,並自動掃描響應中是否存在幻覺和其他不安全內容。人工智慧模型的最大問題之一是它們的不確定性反應可能會導致幻覺。因此,監測準確性和相關性非常關鍵。隨著更多人工智慧模型在 2024 年投入生產,跟蹤其效能和成本將變得至關重要。

需要不斷監控上述風險領域是否存在無法解釋的變化和異常。在檢測到異常情況時,應智慧地發出警報和通知,而不會造成“警報疲勞”。

儘管資料安全和隱私任務貫穿人工智慧治理的每個部分,但監控使用者、他們的權利和相關的安全策略是一個重要組成部分。

4.風險管理

模型記分卡、推理/使用監控資料集和儀表板以及工作流程自動化對於維持人工智慧應用程式的健康以及及時採取補救措施以應對預期效能的任何下降至關重要。自動化工作流程可以幫助建立資料和模型推理 KPI,並根據需要觸發警報,以確保模型所有者可以啟動補救措施。

該工具應提供事件管理功能來記錄解決事件所採取的步驟。最後,工作流程應允許評估遵守相關的人工智慧法規,例如NIST 人工智慧風險管理框架。

人工智慧治理是任何人工智慧計劃取得成功的基礎。我們預計 2024 年傳統資料目錄公司等多個供應商以及 IBM等大型平臺提供商將主要關注人工智慧治理。Databricks 的 Unity Catalog 已經將資料目錄與 AI 模型後設資料融合在一起。

2023 年最後幾天釋出的幾項新法規和標準進一步加速了這一重點。從歐盟人工智慧法案到ISO 42001 ,再到 OpenAI 的準備框架,它們都旨在促進負責任地使用人工智慧。例如,OpenAI 框架有四個目標——“跟蹤、評估、預測和保護”模型風險。

來自 “ 資料驅動智慧 ”, 原文作者:曉曉;原文連結:https://mp.weixin.qq.com/s/8fEPNlm_fVq7YRY8QMGCzA,如有侵權,請聯絡管理員刪除。

相關文章