不寫程式碼也能搞機器學習?!
這是亞馬遜雲科技在最近亞馬遜雲科技 re:Invent 大會上公佈的新工具,用於實現無程式碼視覺化機器學習。
亞馬遜雲科技 re:Invent 大會可謂是雲端計算行業的“春晚”,IT 技術領域風向標級活動,連他們自家的西雅圖總部大廈也隨其更名為大會名,品牌影響之強,可見一斑。
10年來,這一活動上誕生了無數雲端計算乃至 AI 行業標杆產品,如 Amazon Mechanical Turk、Amazon Rekognition、Amazon SageMaker 等等。
今年亞馬遜雲科技 re:Invent 2021 同樣資訊量巨大,最引人關注的,莫過亞馬遜雲科技的機器學習平臺服務 Amazon SageMaker 迎來了一次“大爆發”。
不只有無程式碼開發機器學習模型這一道“菜品”,整個 AI 餐桌上,縱向看,亞馬遜雲科技的12項產品已經覆蓋了整個 AI 產業鏈——
再從橫向看,從為個人開發者準備的入門免費算力池,到大廠專業人士所需的 AI 模型優化工具,相應釋出也一應俱全。甚至,考慮到 AI 發展迅猛的中國市場使用者,亞馬遜雲科技還在B站提供帶中文字幕的大會實錄。
現場演講中,CEO 還專門強調:「亞馬遜雲科技會提供最廣泛最完整的全棧式機器學習服務」。
不妨跟著我們一起回顧全程亮點,對亞馬遜雲科技的 AI 產品脈絡有一番全面認識。
不用程式碼的機器學習
還是先探探一開始提及的無程式碼機器學習預測服務,看它是否真能讓不懂程式碼的人上手。
按官方介紹,這款產品名為 Amazon SageMaker Canvas,面向零機器學習經驗群體,他們中,也許有人是業務分析師,也許有人從事人力資源、財務或營銷等工作。
可預見,上述群體中,多數人並沒有機器學習經驗,甚至對程式碼也毫無認知,卻肯定有通過資料來衡量當前策略、預測市場趨勢的需求。
Amazon SageMaker Canvas 就是將機器學習模型的諸多步驟視覺化為可互動的 UI,旨在解決他們的業務問題,號稱:不寫一行程式碼,快速生成機器學習預測模型。
為了證實其有效性,亞馬遜雲科技的 AI/ML 部門自己分享了一個案例。
當中,該部門產品營銷經理想通過 Amazon SageMaker Canvas 對當前營銷活動進行評估,判斷其是否具有足夠影響力和有效性。
只需開啟 Amazon SageMaker Canvas,上傳資料。該過程中,平臺還能自動糾正上傳資料錯誤,比如補充缺失值或刪除重複的行和列。其技術不出意外,同樣來自自家 AI/ML。
接下來,指定模型預測的目標,再點選「快速生成」,所需模型即可訓練得到。
從結果看,呈現效果確是一個視覺化圖表,模型準確度為93%。
生成模型後,還可共享給資料科學家等合作伙伴,幫業務人員來進一步檢查或者優化這些的模型。
看完官方這一案例,該視覺化介面的確有兩把刷子——
那麼合作方體驗又如何?
目前,寶馬集團已將亞馬遜雲科技 AI/ML 技術投入實際業務流程中的600多個應用中,涵蓋生產線到銷售端的多個場景,此外寶馬還有1500萬臺互聯汽車介入其中,一天產生數以百萬公里資料均交由 Amazon SageMaker Canvas 分析預測。
西門子能源也是上手吃螃蟹者之一。他們將 Amazon SageMaker Canvas 作為自家機器學習工具包的補充,一位應用部門的資料科學組組長表示:Canvas 讓我們能與資料科學團隊共享協作,有助於生產更多機器學習模型,並確保模型符合質量標準和規範。
還有很多名不見經傳的巨頭也是 Canvas 體驗者,比如全球最大的非上市公司科赫集團的子公司英威達,也已經用 Amazon SageMaker Canvas 來輔助處理業務流程中的資料科學問題。
多方評價及直觀展示結果看完,大致可以判斷,此次 Amazon SageMaker Canvas 確實值得期待。畢竟圖形介面相比程式碼釋放生產力創造價值的定律在過去已被反覆證明。
免費的線上 AI 實驗室
前文提及,在年度重磅釋出會亞馬遜雲科技放下豪言:提供最廣泛最完整的全棧式機器學習服務,既然是「最廣泛最完整」,僅靠一個 Amazon SageMaker Canvas 的釋出當然不夠——
對廣大學研機構、AI 愛好者們,前沿技術巨人也需要對得起自己的口號。
總結下來,三個字,降門檻。
最直觀的,提供算力資源。
近年來,高昂的硬體價格、複雜軟體配置一直阻礙初學者入門 AI 的腳步,也是限制行業發展,為更多人認知熟悉的巨大障礙。
亞馬遜雲科技釋出功能 Amazon Sagemaker Studio Lab 提供一大團可薅的「羊毛」。無需額外環境配置、無需註冊賬戶、直接用電子郵件就能登入進去的線上實驗室。
在這一環境中,任何人建立的專案,都能直接擁有12個小時的 CPU 計算時間、4小時的 GPU 計算時間,以及15GB的儲存空間:
這樣的配置縱觀整個行業,確實到位。
要知道,在使用 Pandas 或 XGBoost 進行經典 ML 演算法訓練的資料預處理時,12小時 CPU 時間基本足夠。對於深度學習訓練,也可選擇 GPU 後端獲得4小時計算時間,足以在較小的資料集上進行訓練或微調模型。
換句話說,對初學者階段 AI 模型,拿著上述資源基本都能免費訓練完成。
同時,當下最流行的機器學習工具、框架和庫也被預先打包進去,提供給註冊者,能自定義 Conda 環境,也可安裝開源的 JupyterLab 和 Jupyter Server 擴充套件。上述實驗環境與 GitHub 緊密整合,使得建立的專案能夠被輕鬆地複製和儲存。
除免費“線上實驗室”及算力資源,另一部分「羊毛」更直觀——獎學金。
此番亞馬遜雲科技共拿出了1000萬美金,推出一項亞馬遜雲科技 AI&ML 獎學金計劃,旨在幫助16歲以上的高中、大學生,幫助他們鋪平通往機器學習相關職業之路。
除此之外,亞馬遜雲科技的1:18比例自動駕駛賽車 Amazon DeepRacer 也在面向自動駕駛、機器學習愛好者們,提供一種更有趣、門檻更低的方式幫助他們入門機器學習,訓練出可自己的強化學習模型。
Amazon DeepRacer 由強化學習驅動,並能將演算法部署於雲端的 3D 賽車模擬器中,也可以通過實體小車體驗在真實世界中賽車的刺激感。
當然,表現優異者同樣直通獎學金計劃。
不僅自己發光發熱,亞馬遜雲科技還拉上英特爾,Udacity 做起聯名活動,面向16歲以上的經濟困難、殘疾等社會弱勢群體發放2500份獎學金。
獲得經濟支援之外,這些弱勢人群們也能得到 Udacity 導師、亞馬遜雲科技和英特爾技術大咖長達一年時間的指導和幫助。
機器學習“工業化”重塑
無論零程式碼機器學習釋出,還是面向更廣人群的普惠,背後還是技術撐腰。畢竟功能開發需要深刻場景理解及技術積澱,而「普惠」二字考驗的,還是技術企業的降本水平。
相比上述兩者,亞馬遜雲科技 re:Invent2021 面向專業從業者釋出的 Amazon SageMaker 諸項新功能,更直觀展現亞馬遜雲科技技術水準,從中,更可見技術巨頭對 AI/ML 未來的謀劃。
對於廣大的 MLer 來說,一套完整的機器學習流程,包括資料準備、資料標註、訓練、推理、部署。最終模型推理效果如何,既依賴於開發者個人的水平,也會受架構、算力、資料這些外化因素的影響。
亞馬遜雲科技之所以這麼做,是想要降低個人水平影響,用他們的話說:讓 AI/ML 從手工作坊走向工業化。
具體來看,為一攬子解決問題,Amazon SageMaker 給出一套組合拳,涵蓋機器學習全流程:
在資料準備階段,資料工程師常常需要離開當前開發環境,手動配置一個滿足正在執行的模型或分析要求的叢集。
為此,Amazon SageMaker Studio 與 Amazon EMR 進行了整合,可直接從 Amazon SageMaker Studio Notebook中使用 SparkUI 來監視和除錯執行在 Amazon ECR 叢集上的 Spark 作業。
鑑於無論執行資料預處理、開發還是模型部署,都不必離開這個環境,上述動作無疑向一個理想的完全整合開發環境邁進了一步。
資料標註階段也在告別勞動密集型,避免人工屈從於人工智慧:
這一工作以前需要人力手動標註,或通過資料標註程式處理,但現在,在給出原始資料和需求之後,Amazon SageMaker Ground Truth Plus 會結合機器學習協助的預標記,輔助人類專家進行標記。
這種方式能降低錯誤率,同時將標註的成本降低40%,做到更高效地檢測錯誤,避免低質量標籤的出現。
訓練階段的提升更為關鍵。
強如業界經典的深度學習模型 BERT ,數以十億級引數的複雜神經網路,需要用 GPU 訓練數千小時,即使調參優化,也仍然需要幾天的時間訓練。
但現在,亞馬遜雲科技提供的機器學習模型優化編譯器 Amazon SageMaker Training Compiler,實現無需增加太多程式碼,即可提升 GPU 例項訓練速度。
藉助該編譯器,包括 BERT-base-cased、BERT-base-uncased、distilBERT-base-uncased 在內的諸多經典深度學習模型,訓練速度都能直接提升50%。
新增兩行程式碼就能使用Amazon SageMaker訓練編譯器
最後是推理階段方面的提升。亞馬遜雲科技拿出了之前一舉成名的「無伺服器」概念,提供了一套無伺服器推理功能的 Serverless Inference。
該功能針對資料計算量波動性較強的情況,能夠將資源分配交給雲端,享受一個彈性資源空間服務。讓程式設計師關注高階語言,而不用去關注底層硬體,讓專業人士專注擅長方向。
考慮到現實中,很多客戶有專項需求,但很難判斷多少計算資源合適,另一功能 Amazon SageMaker Inference Recommender 則提供推理階段中的配置和實際執行引數推薦,在成本和速度之間找到最佳平衡點。
從資料準備到推理階段,上述各個流程產品功能釋出為全機器學習週期服務,而非單點拼湊而成,其目的在於:幫助企業實現機器學習的大規模運用,點連成線,打通了一條 AI/ML 工業化規模應用流程。
那麼這套組合拳的效果如何?
可見案例中,美國最大基金管理公司之一 Vanguard 部署時間壓縮96%,醫藥巨頭阿斯利康在5分鐘內即可完成機器學習環境部署,理財企業 NerdWallet 在原有訓練需求增加前提下,成本反降75%。
除此之外,更多元的落地場景,也能看出亞馬遜雲科技對 AI/ML 的縱深挖掘。
比如 DevOps Guru for RDS 可以用來幫助開發者檢測、診斷和解決 Amazon Aurora 中的效能和操作問題。
比如 CodeGuru Reviewer 來識別原始碼中的密碼、 API 金鑰、 SSH 金鑰和訪問 token,提高程式碼審查的效率,幫助傳統軟體行業提升效能。
有趣的是,亞馬遜雲科技 re:Invent 2021 大會舉辦期間,CTO Werner Vogels 還忙裡偷閒發表的一篇部落格,文中暴露了這位技術男對 AI/ML 產業的高期待:
軟體開發將從人力密集開始轉變,人工智慧支援的軟體開發將佔據主導地位。
最後硬體上,亞馬遜雲科技還發布了自研晶片,而且還是一口氣推出了三款。
其中,CPU 晶片 Graviton3 就以機器學習為主打特徵。
更有機器學習定製訓練晶片 Trainium,支援 Trn1 例項,能夠為使用者在雲中訓練深度學習模型提供更高價效比和更快速度。
無論是打通 AI/ML 工業化規模應用流程,還是硬體自研晶片釋出,更巨集觀層面看——
上述釋出動作昭示了亞馬遜雲科技在 AI/ML 業務肉眼可見的延伸。
亞馬遜雲科技正在擴充 AI 疆界
根據 IDC 的資料,從2013年至2020年的7年內,全球 AI/ML 年支出規模從0迅速擴大到約500億美元,該增速幾乎是亞馬遜雲科技老本行雲端計算的2倍。
正是看見這一趨勢,亞馬遜雲科技多路出擊似乎也是必然。
從無程式碼機器學習、無伺服器應用深入 AI/ML,到底層算力繼續升級,乃至諸多普惠計劃…令人眼花繚亂的釋出無不昭示亞馬遜雲科技正在重新劃定機器學習的全新的疆界。
儘管上述釋出還未落地結果,其展現出的價值普通大眾一時未必肉眼可見,但從另一個視角看,所謂追求長期價值,所謂看重基礎設施佈局,不就顯而易見地寫在亞馬遜雲科技 DNA 裡麼?
回想1997年,貝索斯釋出了那封廣為人知的「致股東一封信」。
彼時初代網際網路泡沫正在累積,「快錢」之於很多人尚且是全新概念,當時的 Amazon 就提出客戶、銷售和品牌增長無不為了長期價值服務,同樣為長期價值,貝索斯強調了對「系統及其它基礎設施」的持續投入。
此後,Amazon Web Services 獨立運作,將雲端計算從「概念」變成實實在在的一個行業,更有 Amazon Redshift、Amazon Lambda 帶出雲原生數倉、無伺服器路線發展…
一切的一切,似乎都早早寫下序章。
現在亞馬遜雲科技帶著同樣心態持續押注 AI/ML 領域,本身也就不令人意外了。
這既是身為技術巨頭的責任所在,也的確讓人有所期待,正呼應今年亞馬遜雲科技 re:Invent 2021 的 Slogan :引領風向,重塑未來。
我們已能看到,AI/ML 領域人群覆蓋在擴大,其行業場景在延伸,其技術也相應繼續深探,這一過程還在被行業技術探路者們持續推進。
未來,AI/ML 的疆域究竟有多大?亞馬遜雲科技正在一點點劃定新的輪廓。
大會完整內容傳送門(長按掃碼):