在這份年度報告中，InfoQ 的編輯們討論了 AI、ML 和資料工程的現狀，以及軟體工程師、架構師或資料科學家應該關注的新趨勢。我們將討論整理成技術採用曲線，並附帶了評論，幫助讀者瞭解這些領域技術的發展狀況。

在今年的播客中，InfoQ 的編輯團隊加入了一位外部小組成員 Einat Orr 博士，他是開源專案 LakeFS 的聯合創始人，也是 Treeverse 的聯合創始人兼 CEO，他在最近舉行的倫敦 QCon 大會上發表了演講。

下面的內容總結了其中的一些趨勢，以及不同的技術在技術採用曲線中的位置。

▍自然語言理解和自然語言生成的崛起

我們認為自然語言理解（NLU）和自然語言生成（NLG）技術應該處於早期採用者階段。InfoQ 團隊已經報導了該領域的最新進展，包括百度基於資訊實體的增強語言表示（ERNIE）、Meta AI 的 SIDE，以及特拉維夫大學的長語言序列標準化比較（SCROLLS）。

我們還報導了幾個與 NLP 相關的開發成果，如谷歌研究團隊的 Pathways Language Model（PaLM）、EleutherAI 的 GPT-NeoX-20B、Meta 的 Anticipative Video Transformer（AVT），以及 BigScience Research Workshop 的 T0 系列 NLP 模型。

▍深度學習進入早期大眾階段

去年，隨著越來越多的公司使用深度學習演算法，我們將深度學習從創新者階段移到了早期採用者階段。自去年以來，深度學習解決方案和技術已經被廣泛應用在企業中，因此我們正在將其從早期採用者階段移到早期大眾階段。

已經有一些關於這個主題的播客（無程式碼深度學習和視覺化程式設計）、文章（基於機構增量學習的深度學習系統、鬆散耦合的深度學習服務、使用 Apache Spark 和 NVIDIA GPU 加速深度學習）和新聞（BigScience 的大型開放科學開放訪問多語言模型、谷歌 AI 的深度學習語言模型 Minerva、OpenAI 的開源框架 Video PreTraining）。

▍視覺語言模型

與影像處理相關的 AI 模型發展還包括 DeepMind 的 Flamingo，這是一種 80B 引數的視覺語言模型（VLM），結合了單獨預訓練的視覺和語言模型，可以回答使用者用透過影像和影片提出的問題。

谷歌的 Brain 團隊釋出了 Imagen，一個文字到影像的 AI 模型，可以根據文字描述生成逼真的場景影像。

另一個有趣的技術，數字助理，現在也進入到早期大眾階段。

▍流式資料分析：物聯網和實時資料攝取

流式架構和流式資料分析已經被越來越多的公司採用，特別是在物聯網和其他的實時資料攝取和處理場景中。

Sid Anand 關於構建高保真資料流的演講和 Ricardo Ferreira 關於透過從批處理過渡到流式處理從動態資料中獲取價值的演講都是流式處理已成為戰略資料架構必備要素的絕佳例子。此外，Chris Riccomini 在他的文章“資料工程的未來”中討論了流式處理在整個資料工程中所扮演的重要角色。

Chip Huyen 在去年的 QCon Plus 線上大會上發表了關於實時機器學習流式基礎設施的演講，強調了實時機器學習流式基礎設施的優勢、實時機器學習的好處以及實現實時機器學習所面臨的挑戰。

作為對這一趨勢的反映，流式資料分析和技術，如 Spark Streaming 已經進入了晚期大眾階段。資料湖即服務（Data Lake as a Service）也是如此，在去年獲得了進一步的採用（如 Snowflake）。

▍AI/ML 基礎設施：規模化構建

高度可伸縮、彈性、分散式、安全、高效能的基礎設施可以成就或破壞企業的 AI/ML 戰略。沒有良好的基礎設施作為基礎，任何 AI/ML 計劃都不可能長期取得成功。

在今年的 GTC 大會上，NVIDIA 釋出了用於 AI 計算的下一代處理器 H100 GPU 和 Grace CPU Superchip。

資源協調器（如 YARN）和容器編排技術（如 Kubernetes）現在都處於晚期大眾階段。Kubernetes 已經成為雲平臺事實上的標準，在將應用程式部署到雲端方面，多雲端計算受到了越來越多的關注。Kubernetes 等技術可以實現 AI/ML 資料管道整個生命週期的自動化，包括模型的生產部署和後期支援。

在創新者階段也有一些新進入者，包括雲不可知 AI 計算、知識圖、AI 結對程式設計（如 Github Copilot）和合成資料生成。

知識圖繼續在企業資料管理領域佔有一席之地，它為不同的場景（包括資料治理）提供了實際的應用。

▍基於ML的編碼助手——GitHub Copilot

去年釋出的 GitHub Copilot 現在已經準備就緒。Copilot 是一個基於 AI 的服務，透過分析現有程式碼和註釋幫助開發人員編寫新程式碼。它會為開發人員生成基本函式，開發人員不需要從頭編寫這些函式，從而提升了開發人員的工作效率。除了 Copilot，未來也會出現更多的解決方案，它們提供了基於 AI 的結對程式設計，並自動化軟體開發生命週期中的大部分步驟。

Nikita Povarov 在“面向開發者的 AI：是未來還是現實”一文中談到了 AI 開發工具的作用。AI 開發者試圖使用演算法來增強程式設計師的工作，讓他們變得更有效率。在軟體開發當中，我們可以清楚地看到 AI 既執行人工任務，又提升了程式設計師的工作效率。

▍合成資料生成：保護使用者隱私

在資料工程方面，自去年以來，合成資料生成是另一個獲得大量關注和興趣的領域。合成資料生成工具可用於生成安全的合成業務資料，有助於保護使用者隱私。

亞馬遜雲科技推出了 SageMaker Ground Truth 等技術，使用者現在可以使用這些技術建立有標籤的合成資料。Ground Truth 是一種資料標記服務，可以生成數百萬張自動標記的合成影像。

在 AI/ML 應用的整個生命週期中，資料質量至關重要。Einat Orr 博士在倫敦 QCon 大會上發表了關於大規模資料版本控制的演講，並討論了資料質量和大型資料集版本控制的重要性。資料的版本控制有助於重現一個流程或模型的輸入和輸出資料集之間的沿襲，併為審計提供相關資訊。

在這次大會上，Ismaël Mejía 討論瞭如何在最新的資料管理方法（包括操作、共享和有助於我們建立和維護具有彈性和可靠性的資料架構的資料產品）中應用開源 API 和開放標準。

在另一篇文章“為現代資料系統構建端到端欄位級沿襲”中，作者將資料沿襲作為資料管道根源和影響分析工作流的關鍵元件進行了討論。為了更好地理解資料倉儲源物件和目標物件之間的關係，資料團隊可以使用欄位級沿襲。對沿襲建立進行自動化，並將後設資料抽象到欄位級別可以減少進行根源分析所需的時間和資源。

新進入早期採用者階段的包括與機器人和虛擬現實相關的技術（VR/AR/MR/XR）以及 MLOps。

▍MLOps: ML和DevOps實踐的結合體

MLOps 已經得到了很多公司的關注，因為它將 DevOps 的原則和最佳實踐引入到了軟體開發領域。

Francesca Lazzeri 在 QCon Plus 大會上提到，MLOps 是企業 AI 應用最重要的一個組成部分。她討論了 MLOps 如何幫助資料科學家和應用程式開發人員將機器學習模型應用到生產環境中。MLOps 可以幫助我們跟蹤、版本化、審計、認證、重用機器學習生命週期中的每一項資產，並提供編排服務以簡化機器學習生命週期的管理。

MLOps 透過將人、流程和平臺聚集在一起對融入了機器學習的軟體交付進行自動化，為我們的使用者提供持續的價值。

她還討論了在生產環境中部署 ML 應用程式之前應該瞭解哪些東西，關鍵要點包括使用開源技術進行模型訓練和部署，並透過機器學習管道自動化端到端 ML 生命週期。

Monte Zweben 談到了將功能商店和模型部署等核心元件聚集在一起的 Unified MLOps。

在播客中討論的其他主要趨勢如下。

在 AI/M L 應用中，轉換器仍然是首選的架構。
ML 模型繼續發展壯大，可以支援數十億個引數（GPT-3、EleutherAI 的 GPT-J 和 GPT-Neo、Meta 的 OPT 模型）。
用於機器學習訓練的開源影像到文字資料集，如 CLIP 或 DALL-E，促進了資料民主化，人們都可以利用這些模型和資料集。
機器人和虛擬現實的未來將主要出現在元宇宙中。
AI/ML 計算任務將受益於基礎設施和雲端計算創新，如多雲和雲不可知計算。

要了解更多信息，請參考 2022 年 AI、ML 和資料工程播客錄音和文字，以及 InfoQ 的 AI、ML 和資料工程專題內容。

本文首發於公眾號：BFT機器人

更多機器人資訊請關注

BFT白芙堂機器人是一站式機器人工業網際網路平臺，能為客戶提供一站式機器人系統採購，包括協作機器人、工業機器人、移動機器人、服務機器人、3D機器視覺產品、工業相機、鏡頭、3D印表機等產品，也為客戶提供演算法及系統定製、職校教學、K12教育及科研實驗室平臺、機器人展廳，線上機械機加工等服務。透過BFT平臺，客戶可以快速找到合適的機器人本體、夾具及相關應用等產品和服務。目前，BFT機器人已與大量國內外機器人知名公司建立戰略合作或代理關係。

InfoQ 2022 年趨勢報告：人工智慧、機器學習和資料工程篇

相關文章