2022 年 12 月 30 日,由 SegmentFault 思否社群聯合亞馬遜雲科技共同舉辦的“2022 re:Invent Recap:創新源動力——深度學習技術洞察與實踐”線上沙龍活動圓滿落幕。
最近幾年,AI 在 自然語言處理(NLP)領域的突破不斷創新,首當其衝便是作為全新聊天機器人模型的 “ChatGPT”等 AIGC 正規化的內容生產工具。隨著越來越多 AIGC 創業新貴們迅速佔據市場,寒冬裡業界對新一輪 AI 創業浪潮的期許也被徹底點燃,如何藉助深度技術幫助每一個開發者讓產品創新變得更簡單成為當下面臨的新挑戰。
始於 2012 年的亞馬遜雲科技 re:Invent 全球大會作為雲端計算領域備受業界矚目的活動,每年都會吸引無數來自世界各地開發者們的關注。本場沙龍將圍繞 AI 深度學習技術展開進一步探討,並從底層原理及大量業務實戰案例出發,分享 AI 技術在產品創新的實戰經驗以及 AI 工程師的轉型創新之路。來自 Zilliz 首席工程師焦恩偉 、NebulaGraph 專案開發者佈道師古思為、亞馬遜雲科技解決方案架構師林業、亞馬遜雲科技機器學習解決方案架構師李雪晴受邀出席本場沙龍,並進行了主題演講。
當前,AI 正不斷向著產業化的方向演變,深度學習平臺已成為企業及開發者應用 AI 技術必備的“殺手鐧”。最新發布的 IDC 資料顯示,在 AI 技術使用方面選擇開源深度學習框架的企業及開發者比例高達 86.2% 。那麼在深度學習技術轉變過程中,如何簡化應用開發的流程及其資料管理問題呢?Zilliz 首席工程師焦恩偉首先為我們帶來了主題為 “ Milvus: 深度學習應用‘工業革命’的新引擎”的分享,以社群實踐的角度,對深度學習工業化浪潮下 Milvus 憑藉自身效能優勢解決分級化資料等多場景需求做了解讀。
Milvus 研究團隊藉助資料 framework 標準化後工業化的“視窗”成功搶佔賽道, 2019 年 4 月正式釋出 1.0 版本後不斷迭代,並於 2020 年 3 月加入 Linux 基金會,至此 Milvus 終於發展為相對成熟的開源產品。在本場分享中,焦恩偉介紹了最初在海量資料下如何搭建“以圖搜圖” Demo 系統以及向量資料庫 Milvus 概念及其架構。作為基於亞馬遜雲科技的微服務雲原生架構 SaaS,Milvus 2.0 上面就包括了非常多元件及節點;此外,Milvus 的雲服務版本 ——Zilliz Cloud 基於亞馬遜雲科技雲平臺提供服務,實現了不同叢集間使用同一資源池來聚合計算,極大節省了使用者的節點開銷及成本。焦恩偉還分享了深度學習的應用案例,並對下一代 Milvus 演進的規劃做了展示。
焦恩偉詳細解讀了 Milvus 的效能優勢,從影片查重、商品推薦、商品搜尋、App 推薦等方面案例對 Milvus 在社群的廣闊應用空間做了分享,並從 AI 中臺、AI 業務、高效能、大資料這四個場景對 Milvus 的適用人群做了分析。他表示,向量資料在深度學習場景裡有著廣泛且超多的應用前景,接下來會更積極擁抱 AI 生態系統,期待與業界上下游廠商做更多合作。在未來規劃環節,他提到了下一步 Milvus 將支援 SQL ,以降低 AI 的使用、學習門檻,讓更多的非研發同學也能快速享受到當前技術的變革。同時打造能夠服務不同的業務部門多租戶平臺,並做到極致的效能最佳化及豐富的 AI 生態接入。最後,焦恩偉也對網友提出的互動問題如“Muas 如何進行效能調優”“哪些因素會影響 CPU 的使用率?”“向量資料庫主要應用方向”分別做了解答。
AI 時代,使用神經網路來學習圖結構資料、提取圖結構資料特徵模式,以滿足圖學習任務需求的演算法已經被普遍應用在我們日常數字生活的多個領域。在第二場演講中,NebulaGraph 專案開發者佈道師古思為就為我們帶來了以“搭建基於圖神經網路的實時欺詐檢測系統”為主題的分享,深入解讀了如何利用圖深度學習和圖資料庫來構建一個實時的欺詐檢測系統。
古思為對當前圖神經網路的發展背景做了介紹,並解讀了為何要透過該演算法方案來打造一套系統,以及可組織和查詢、儲存海量圖譜業務的圖資料庫概況。隨後,深入解讀了基於圖的神經網路方法及 GNN 欺詐檢測,同時從實踐的角度對實時欺詐檢測系統 【( Graph Neural Network, GNN)+圖形資料庫】 NebulaGraph DGL 在端到端的實際應用及所用到的開源專案做了分享。期間,他重點展示瞭如何將訓練成功的 DGL 圖神經網路模型嵌入到線上服務中的例項,並結合圖資料庫的實時能力,對整個欺詐檢測系統的搭建過程做了 Demo 演示。
古思為表示,NebulaGraph 專案自 2018 年創立之初,就從 day zero 面向超大規模,到千億點規模、萬億邊規模的演變下不斷迭代,在擁有上千使用者的開源社群中打磨出完備的周邊生態。最初面向分散式,NebulaGraph 就有較好的擴充套件性、併發處理能力、響應時間以及規模和效能,而積極擁抱開源也是該專案被大量使用者選擇作為其圖的基礎設施或圖中臺的理由之一。古思為隨後簡要介紹了 DGL (Deep Graph Library) 這個開源專案,DGL最初由紐約大學和亞馬遜雲科技共同發起,作為最流行的圖神經網路框架之一,它提供了非常優雅的底層框架無關的 GNN 介面和非常強大的分散式訓練能力,同時,它的社群也非常活躍。 最後,古思為也對線上網友提出的“有一定的深度學習基礎該如何入門”“圖神經網路目前可研究的方向及其未來發展的趨勢”相關問題解答。
之後,亞馬遜雲科技解決方案架構師林業、亞馬遜雲科技機器學習解決方案架構師李雪晴也分別從當前熱點話題技術及實戰的角度帶來了主題為“ Amazon SageMaker 玩轉 AIGC”和“SageMaker 新功能深解讀:機器學習模型治理實戰”的分享。
據 Gartner 資料顯示,預計到 2023 年會有 20% 的內容被生成式的 AI 所建立,到了 2025 年,我們生產的 AI 生產的資料佔比將達到 10%。林業在出題分享中,就主要聚焦了 AIGC 這個當前的熱點技術話題,介紹了 AIGC 概況以及當前 AIGC 主流應用場景,並就“如何利用亞馬遜雲科技的平臺來實現 AIGC 上的 Stable Diffusion 模型應用”進行了演示。
林業主要挑選了 Stable Diffusion 和 Bloom 這兩個 AIGC 的模型進行了初步的講解,其中 Bloom 是亞馬遜雲科技今年 7 月份正式面世的開源專案,最終實現了 1760 億個引數規模,可適用於多種場景。他也對 Amazon SageMaker Studio 一站式機器學習 IDE 開發平臺及 Amazon SageMaker JumpStart 、SageMaker JumpStart + Stable Diffusion 、SageMaker JumpStart + Bloom 等開發工具及客戶解決方案做了分享,並線上演示了利用 JumpStart 快速建立 Stable Diffusion 應用,最後對來自線上網友的提問做了解答。
作為 AI 的核心,機器學習需要在在降低模型失效及規避風險方面有一套完整的規範。在本次線上沙龍的最後一個主題裡,李雪晴先從兩個方面為我們介紹了亞馬遜雲科技的優勢,比如擁有非常完整全面的機器學習產品型別以及亞馬遜自研的訓練晶片 Amazon training、自研的推理晶片 Amazon ingredient。隨後對 Amazon SageMaker 概況做了展示,重點對 Amazon SageMaker Notebook Instance 基於 JUPYTERLAB 開發環境的筆記本例項、適用於演算法工程師的日常實驗和程式碼除錯、開源的 Deep Graph Library 賦能圖神經網的多種業務場景等實戰案例做了分享,同時為線上網友提出的問題做了詳細解答。
————————————-——————
四位講師的精彩分享,與廣大開發者的積極互動,讓我們在熱烈的技術交流氛圍中,結束了本場沙龍,為剛剛過去的 2022 年畫上了一個圓滿的句號。新的一年裡,也將不斷有更多精彩活動期待您的關注!