AI 大模型時代呼喚新一代基礎設施,DataOps 2.0和排程編排愈發重要

海豚调度發表於2024-08-07

在 AI 時代,DataOps 2.0 代表了一種全新的資料管理和操作模式,透過自動化資料管道、實時資料處理和跨團隊協作,DataOps 2.0 能夠加速資料分析和決策過程。它融合了人工智慧和機器學習技術,使得資料的獲取、清洗和分析更加高效,推動企業在快速變化的市場中保持競爭優勢。

另一方面,在 AI 時代,排程編排技術正變得愈發重要,成為高效資源管理和任務自動化的核心。透過智慧演算法和機器學習,排程編排能夠實時分析系統負載、最佳化資源分配,並根據需求動態調整任務執行順序。這不僅提高了系統的執行效率,還降低了人力干預的需求,提升了響應速度和靈活性。

Bessemer Venture Partners 在基礎設施投資方面有著悠久的歷史。經過這家公司的長期觀察,他們發現在 AI 時代,為 AI 量身定製的新型基礎設施正規化正在興起,以增強 AI 時代下一波企業資料軟體的發展。其中,DataOps 2.0 和排程編排技術和產業的發展也成為焦點。

以下為Bessemer Venture Partners 關於 AI 時代下新型基礎設施的發展狀況的觀察和預測,僅供參考:

目錄:

一、AI 革命正在催生資料堆疊的演變

二、為 AI 量身打造的新興基礎設施堆疊

1、在擴充套件、創新模型架構和專用基礎模型方面的創新

2、模型部署和推理的創新

3、前沿模型訓練和開發技術

4、AI 時代的 DataOps 2.0

5、下一代可觀測性

6、編排

三、AI 基礎設施業務存在巨大機遇

一、AI 革命正在催生資料堆疊的演變

近年來,機器學習取得顯著進展——自 2017 年突破性論文《Attention is all you need》(https://arxiv.org/abs/1706.03762)奠定了 transformer 深度學習架構的基礎以來,我們迎來了 AI 研究的“寒武紀大爆發”,每天都有新的論文發表,並以驚人的速度不斷積累。

AI 基礎設施 arXiv 論文圖表

AI 創新的這種結構性轉變正在催化資料基礎設施在許多方面的演變。

  • 首先,AI 正在推動現代資料堆疊的發展,現有的資料基礎設施公司已經開始將 AI 功能整合到資料管理中的合成、檢索和豐富等環節。

此外,認識到 AI 浪潮作為商業機會的戰略重要性,一些現有公司甚至釋出了全新的產品,以支援 AI 工作負載和 AI 優先使用者。

例如,許多資料庫公司現在將嵌入作為一種資料型別支援,要麼作為新功能,要麼作為獨立產品提供。

  • 其次,資料和 AI 密不可分。資料的增長速度異常驚人,正在推動當前基礎設施工具的極限。

特別是非結構化資料的生成量預計到 2030 年將飆升至 612 澤位元組(一澤位元組等於一萬億千兆位元組或十億兆位元組。);

這一增長是由機器學習/AI 的熱潮和生成模型在各類模式下產生的合成資料所驅動的;除了資料量外,資料型別和來源的複雜性和多樣性也在不斷增加。

公司正在透過開發新硬體來應對這些挑戰,包括更強大的處理器(如 GPU、TPU)、更好的網路硬體以促進高效的資料傳輸,以及下一代儲存裝置。

  • 最後,基於最近在機器學習和硬體方面的進展,一波新的 AI 原生和 AI 嵌入的初創公司正在湧現——這些公司要麼從一開始就利用 AI/ML,要麼用其增強現有能力。

不幸的是,目前的許多資料基礎設施和工具仍未針對 AI 用例進行最佳化。就像將方釘強行塞進圓孔一樣,AI 工程師不得不在現有基礎設施中創造變通的方法或技巧。

二、為 AI量身打造的新興基礎設施堆疊

隨著近年來多個“why now”的推動因素積累,缺乏原生和專門設計的工具,促成了為 AI 原生和嵌入式 AI 公司構建的新 AI 基礎設施堆疊。

我們正處於一場大規模技術變革的中期——這一新興的 AI 基礎設施堆疊內的創新正以前所未有的速度推進。

即使在我們編寫這份路線圖和發展我們的觀點時,研究人員每天都在釋出新的論文,使之前的觀點變得過時。

瞬息萬變的環境令人生畏,但儘管存在未知的變數,但初創企業的潛力和機會卻是廣闊的。

伴隨著 AI 的革新,我們展開投資。隨著每日釋出的新前沿研究,有時感覺腳下的地面都在變化。我們不斷將最新的發展納入我們的理論。以下是我們感興趣的幾個主題:

1、在擴充套件、創新模型架構和專用基礎模型方面的創新

模型層正成為 AI 基礎設施堆疊中最具動態性和競爭激烈的層。

基礎模型是新的“石油”,鑑於這一部分堆疊的戰略重要性,隨著越來越多的公司基於它們的啟發式方法構建應用,這裡的贏家可能在未來多年內定義下游應用的未來。

我們看到模型層的活動激增——從開源模型到小語言模型。大量的活動和資本集中在擴充套件基於 transformer 模型(如透過資料、模型並行、混合模態等)或試圖推動這些模型在各種效能屬性上的發展(如成本、延遲、部署、記憶體佔用、上下文視窗等)。

例如,幾支團隊正在改進生成模型的構建塊(primitives),如注意力機制和卷積機制,以創造更強大、更高效的 AI 技術。

由於模型訓練需要大量的資金,許多這些需要風險投資資助。除了訓練成本之外,還需要具備科研人才、工程化人才和專門資源來在這一層進行創新。

但是“attention is not all you need”——研究人員也在開發非 transformer 架構,並不斷推動基礎模型的可能性。

例如,狀態空間模型(SSM),如 Mamba,以及各種遞迴架構,正在擴充基礎模型的前沿,這些模型計算密集度較低,延遲較低,可能為傳統 transformer 提供更便宜、更快的訓練和推理替代方案。

自 20 世紀 60 年代以來,專注於動態、連續系統的 SSM 已經存在,但最近才應用於離散的端到端序列建模。

線性複雜性也使得 SSM 成為長上下文建模的絕佳選擇,我們看到幾家公司在這方面蓬勃發展。

儘管早期結果顯示在各種屬性上具有令人印象深刻的效率,研究人員還需要證明現在在 transformer 生態系統中視為理所當然的各種屬性(如控制、對齊、推理)。

此外,幾何深度學習領域的突破性研究,包括類別深度學習和圖神經網路,正在為研究人員提供結構化推理的方法。

儘管這一領域已經存在了相當一段時間,但在這一波新的 AI 浪潮中,它重新引起了興趣,因為幾何方法通常使深度學習演算法能夠考慮嵌入在現實世界資料中的幾何結構(如程式碼中的抽象語法樹、生物通路等),並可應用於各種領域。

此外,除了通用模型,目前還有許多團隊在訓練特定用途的模型,如程式碼生成、生物學、影片、影像、語音、機器人技術、音樂、物理、腦電波等,這為模型層增加了另一個多樣性和靈活性的向量。

2、模型部署和推理的創新

計算層是 AI 基礎設施堆疊中最複雜的層之一, 大型企業和初創企業都在計算層領域創新,加劇了其複雜性。計算層的複雜不僅因為它是一個核心層,也是由於它為堆疊的其他部分提供動力:

它融合了硬體(例如 GPU 和定製的硬體)、軟體(例如作業系統、驅動程式、配置工具、框架、編譯器以及監控和管理軟體)以及商業模型之間的創新和互動。

在硬體層面,隨著供應鏈短缺的緩解,GPU 成本正在下降。下一代 GPU,如 NVIDIA 的 H100 和 B100 系列,結合互連技術的進步,在模型層面擴充套件了資料和 GPU 並行性。

除了硬體,各種演算法和基礎設施創新也在實現新的 AI 能力。例如,transformer 架構中的自注意力機制由於其高計算需求,尤其是二次時間和空間複雜性,已成為一個關鍵瓶頸。

為了解決這些挑戰,機器學習系統社群已經發布了各種模型和基礎設施層的研究:自注意力機制的演變(如Ring Attention)、KV Cache 最佳化(如通道量化、剪枝、近似)等。

這些創新減少了 LLM 解碼步驟的記憶體佔用,實現了更快的推理、更長的上下文和成本效益。

在我們向個性化、更便宜的微調方法邁進的過程中,仍有許多問題有待解決。

LoRA 等方法釋放了記憶體,實現了經濟高效的微調,但事實證明很難對 GPU 資源進行可擴充套件的管理,以便為微調模型提供服務(GPU 的利用率往往很低,將權重複制進記憶體和從記憶體複製出會降低算術強度)。

雖然在批處理、量化和無伺服器資訊堆疊的更高層次上進行了改進,使基礎架構變得更加簡便易行,但仍有許多 "懸而未決 "的問題。

Skypilot 和 vLLM 等專案,以及 Modal、Together AI、Fireworks 和 Databricks 等公司,都在推動這方面的發展。

在這一層的供應商對利用其服務的 AI 應用公司的單位經濟(尤其是毛利率)產生了巨大影響,我們預計這些動態將繼續推動基於下游應用需求的創新。

3、前沿模型訓練和開發技術

如前所述,AI 研究正以驚人的速度推進,特別是我們正處於一個令人興奮的時期,新 AI 方法和技術在預訓練、訓練和開發方面都在蓬勃發展。

新方法每天都在被開發,與現有方法的演變並行,這意味著 AI 基礎設施堆疊正在動態定義和重新定義。

我們看到這些技術在各個方面的擴散,推進 LLM 和擴散模型在基礎效能引數(如準確性和延遲)方面的輸出,直至推動新前沿的極限(如推理、多模態、垂直特定知識,甚至代理 AI 或新興能力)。

我們在第一節中強調了一些架構正規化,但其他技術示例如下:

  • 微調和對齊:監督反饋、專門的訓練資料或精煉權重以適應特定任務(如 RLHF、constitutional AI、PEFT)

  • 檢索增強生成(RAG):透過檢索機制將 LLM 連線到外部知識源,結合生成功能與搜尋和/或整合相關知識庫資料的能力

  • 提示正規化:一種互動過程,其中 LLM 被指示和引導達到期望的結果(如少樣本學習、多樣本上下文學習、退後提示、CoT、ToT)

  • 模型混合和合並:混合單獨的 AI 模型子網路共同執行任務的機器學習方法(如 MoE、SLERP、DARE、TIES、frankenmerging)

  • 訓練穩定性:關於歸一化方法(如 LayerNorm vs。RMSNorm)、歸一化、啟用和其他屬性的決策會影響訓練穩定性和效能

  • 引數效率: 影響模型能力和效率的各種方法,如高效的持續預訓練

儘管這些方法在實驗簡便性與效果之間存在權衡,但我們預測這些技術將激發新的發展,隨著研究人員更快迭代並解決現實世界的可擴充套件性和適用性問題。

此外,在應用 AI 中常見的是部署混合或組合技術,但最終,能帶來最大效益的方法可能會主導應用 AI 領域。

此外,隨著基礎模型的不斷改進以及更多 AI 驅動解決方案在生產中和現實世界約束下的部署,形勢正在動態演變。

最終,我們認為現在仍處於早期階段,尚未真正建立起霸權,特別是在企業 AI 領域。

因此,我們非常高興能與開發、啟用或商業化這些技術的公司合作,因為這些公司將重塑和重新構想我們如何在現實中構建、開發、操作和部署 AI 模型和應用,併為 AI 公司形成關鍵的工具層。

4、AI 時代的 DataOps 2.0

我們在文章開頭提到,資料和 AI 輸出是密不可分的。

我們看到這一點在許多方面得到了體現,從資料質量影響 AI 輸出(垃圾進垃圾出),到最近的 AI 創新從以前未開發的資料來源(如非結構化資料)中釋放洞察力,再到專有資料作為 AI 原生公司的競爭優勢和護城河。

在我們的《Data Shift Right》文章中探討了這種關係,並在最近的《資料指南》中強調了公司利用的新資料策略,以最佳化 AI 的競爭優勢。

鑑於這些催化劑,資料運維面臨新的需求,導致儲存、標註、流水線、準備和轉換的新方法和框架的出現。一些令人興奮的例子包括:

  • 在預處理階段,我們看到專為操作 LLM 資料而設計的資料管理和 ETL 解決方案的興起。
  • 新資料型別(如Embedding)的出現激發了全新的資料運維類別,如向量資料庫。
  • 資料標註在 AI 時代不斷髮展,融合了先進的以資料為中心的方法,這加快了之前的手動或弱監督方法的速度,並吸引了更多非技術終端使用者。

  • AI 革命推動了處理各種資料模態(特別是非結構化資料,如影片和影像)的工具的主流應用。許多最先進的工具現在已整合到日常工作流程中。以前處理這些模態是具有挑戰性且通常是定製的,導致組織無法完全從這些豐富的資料來源中獲得價值。

  • 隨著組織利用模型訓練和推理技術的創新(參見第三節),新的企業工具鏈和資料工作流程(例如 RAG 堆疊)正在出現。

正如現代資料堆疊推動了資料運維領域標誌性十角獸(指成立不到10年但市值超過100億美元的公司)的崛起,我們相信,專注於 AI 工作流程的新一代資料運維巨頭將會出現。

5、下一代可觀測性

隨著每一波新技術的浪潮,可觀察性也隨之採取了各種形式(例如,現代資料堆疊中的資料可觀察性、用於雲應用程式開發的 APM)。

同樣,我們看到可觀察性在 AI 時代不斷髮展——一系列新的供應商正在出現,幫助公司監控模型和人工智慧應用程式的效能。

雖然我們已經看到許多公司進入市場解決一個關鍵問題,無論是在前期製作(例如,LLM 評估、測試)、後期製作(例如,監控、捕捉偏差和偏差、可解釋性),甚至延伸到相鄰的功能,例如模型安全性和合規性、智慧路由和快取;

我們預計(並且已經看到)這些公司的長期路線圖將匯聚到建立端到端可觀察性平臺,建立單一事實來源用於在製作前和製作後環境中的模型效能。

我們對在 AI 可觀測性領域出現類似 Datadog 的結果感到興奮——然而,鑑於環境不斷變化,新的模型、新的訓練/微調技術和新型應用的出現,在可觀測性領域獲勝可能需要一支能夠快速提供高產品速度的團隊,可能比其他領域更甚。

正如我們從 Datadog 的崛起中瞭解到的那樣,該公司能夠在十幾個(類似的)競爭對手中脫穎而出,因為他們專注於:

  • 快速執行廣泛的產品和能力集;

  • 構建 Datadog 可以監控的深度覆蓋;

  • 提供廣泛的整合支援,以便將盡可能多的鄰近系統帶入其生態系統。

我們很高興能與這代初創公司合作,他們在 AI 堆疊中承擔這樣的任務。

6、編排

隨著新興的 LLM 和生成 AI 應用公司不斷增長,我們看到編排層的公司有重大機會成為 AI 開發的支柱。

作為 AI 開發生命週期中的“樂隊指揮”,並負責確保和協調 AI 應用的開發、部署、整合和一般管理,編排供應商是一個關鍵(並且重要的是,保證供應商中立,即所有資訊在中立模擬平臺上都絕對安全可靠,合作專案中的任何一方都只能訪問到跟他們相關的資訊。)的集中樞紐,協調開發者遇到的各種 AI 工具的擴充套件。

Langchain 和 LlamaIndex 等公司在 LLM 領域早期嶄露頭角,強大的開源生態系統推動了這些公司的採用。

他們建立了框架,為開發人員提供了一套最佳實踐和工具包,用於開發自己的 LLM 應用,抽象了連線正確的資料來源到模型、實施檢索方法等方面的複雜性。

除了 LLM,我們還看到一個供應商生態系統為基於代理的應用建立編排解決方案,進一步簡化了新型創新代理 AI 應用的開發過程。

類似於 ReAct 簡化 Web 開發的成功,我們預期 AI 編排供應商有類似的機會簡化開發,並賦予大眾開發各種 AI 應用(如 LLM、代理、計算機視覺等)的能力。

三、AI 基礎設施業務存在巨大機遇

正如馬克·吐溫曾經說過的:“當每個人都在尋找黃金時,是從事鎬和鏟子生意的好時機。”

我們相信,為機器學習構建“鎬和鏟子”有著巨大的機會,這將會催生一大批價值數十億美元的公司來為企業提供實現 AI 運營化的工具和基礎設施。

相關文章