12月9日, AWS全球機器學習副總裁Swami Sivasubramanian (簡稱Swami) 在亞馬遜re:Invent大會上發表機器學習和人工智慧主題演講,展示了AWS關於人工智慧與機器學習的最新全景藍圖,並宣佈了一系列新服務和新功能,讓機器學習更易用和擴充到更加廣闊的使用者、應用場景和行業。這是亞馬遜re:Invent大會上的首次機器學習主題演講。Swami主題演講中表示,“機器學習是我們這一代人能遇到最具顛覆性的技術之一,目前已經有超過10萬客戶在使用AWS的機器學習服務,很多客戶已經將機器學習用於其核心業務。

AWS大中華區雲服務產品管理總經理顧凡介紹說,“亞馬遜利用機器學習技術已經有20多年時間,這是AWS機器學習服務的深厚源泉。AWS在2016年開始發力,在雲上提供機器學習服務。當年只發布了三個服務,2017年開始加速,最近三年,每年新增的服務和功能超過200個,為全球人工智慧工作者豐富了他們急需的工具集。

據德勤釋出的《全球人工智慧發展白皮書》預測,到2025年,世界人工智慧市場規模將超過6萬億美元。

面對數字經濟的發展機遇,多個國家和地區已將人工智慧列為優先發展的國家戰略。

2020年11月21日,國家工業資訊保安發展研究中心在《2020人工智慧與製造業融合發展白皮書》中指出了目前融合存在的諸多難點,其中人才匱乏問題尤為嚴重。而人社部官網的報導中測算,目前我國人工智慧人才的缺口超過500萬,國內的供求比例為1:10,供需比例嚴重失衡。

德勤釋出的《全球人工智慧發展白皮書》指出,在人工智慧眾多的分支領域中,機器學習是人工智慧的核心研究領域之一。包括89%的人工智慧專利申請和40%人工智慧範圍內的相關專利均為機器學習範疇。

AWS是雲端計算的引領者,也是機器學習的翹楚。面對機器學習這樣一個充滿前途的事業,以及當前嚴重缺乏人才的處境,AWS通過多種方式,採取一系列措施,著重通過技術創新,為機器學習擴圈。

首次推出開箱即用的工業領域機器學習解決方案

擴圈舉措之一,是推出開箱即用的解決方案。在re:Invent大會上,AWS釋出了五項用於工業領域的機器學習服務,分別是Amazon Monitron、Amazon Lookout for Equipment、AWS Panorama一體機、AWS Panorama SDK和Amazon Lookout for Vision。這是AWS首次推出開箱即用的工業領域機器學習解決方案。

Amazon Monitron和Amazon Lookout for Equipment通過機器學習支援預測性維護。Amazon Monitron面向沒有建立感測器網路的客戶,提供由感測器、閘道器和機器學習服務組成的端到端機器監控系統,檢測異常並預測何時需要維護工業裝置。Amazon Lookout for Equipment面向已經擁有感測器、但不希望自己構建機器學習模型的客戶,由AWS為其構建模型並返回預測結果,檢測異常裝置行為。

AWS Panorama通過計算機視覺改善工業運營和工作場所安全。AWS Panorama一體機是一個硬體裝置,將它連線到工業場所的網路中,它就可以自動識別攝像頭資料流,與工業攝像頭進行互動。AWS Panorama軟體開發套件(SDK),方便工業相機制造商在新相機中嵌入計算機視覺功能。

Amazon Lookout for Vision為工業客戶提供高精度、低成本的產品質量異常檢測解決方案。它通過機器學習技術,每小時可以處理數千張影像,發現產品缺陷和異常。客戶可以將攝像頭影像批量或實時傳送到Amazon Lookout for Vision,找出異常,例如機器部件的裂紋、皮膚上的凹痕、不規則形狀或產品上的顏色錯誤等。

目前已經使用AWS工業領域機器學習服務的客戶和合作夥伴包括Axis、凌華科技、BP、德勤、Fender芬達、GE 醫療和西門子交通等等。

 打造包羅永珍的工具箱,賦能每一位AI工作者

擴圈舉措之二,是打造全面豐富的工具集,用顧凡的話說, right tool for the right job(為每一項工作都提供一個趁手的工具)AWS提供的機器學習工具集包括三個層面。

工具集的底層,面向那些技術能力超強的客戶,希望將人工智慧和機器學習作為自己的核心競爭力。AWS為他們提供強大的算力、全面的算力選擇、豐富的機器學習框架選擇。AWS支援主流的機器學習框架,客戶還可以通過容器部署的方式,自帶機器學習框架;AWS可以提供基於英偉達、英特爾、AMD、賽靈思等晶片廠商的最新處理器的強大算力,同時還通過自主設計的處理器,極大地降低機器學習的算力成本。

工具集的中間層,面向那些技術能力較強的客戶,他們有大量的資料可以進行機器學習模型訓練,有一定的演算法人才,不要花精力管理基礎設施,專注於自己的應用和業務創新。AWS的Amazon SageMaker為他們提供了首個全託管的機器學習整合開發環境,併為這個開發環境不斷增加新功能,從資料準備、到模型訓練、引數調優與模型迭代、到模型部署、模型質量監控,在整個過程中最大限度地提高他們開展機器學習的效率,降低他們開展機器學習的門檻。

工具集的頂層,面向技術能力相對薄弱的客戶,他們有一定的資料,但沒有演算法人才,他們希望在業務場景中直接引入人工智慧。AWS為他們提供開箱即用的人工智慧服務,目前已經涵蓋機器視覺、語音文字轉換、機器對話、文字處理、電商業務、客服、企業內資訊搜尋、開發與運維、工業AI等方面。

通過這樣一個全面的工具集,AWS可以覆蓋和賦能所有的人工智慧工作者。

擴充到資料庫開發者和資料分析師

擴圈舉措之三,是將機器學習擴充到資料開發者和資料分析師。資料庫開發者、資料分析師這個群體,人數比機器學習開發人員群體大得多,他們沒有機器學習的知識和技能,但是不缺少機器學習的想法。於是,AWS將機器學習能力跟資料庫進行嫁接,讓資料庫開發者、資料分析師沿用資料庫查詢的方式,讓他們的機器學習想法落地到業務應用中。Amazon Aurora是AWS著名的關係型資料庫服務,AWS針對Aurora推出了新功能Amazon Aurora ML。資料庫開發者發起資料庫查詢(SQL)時,只要選擇一個機器學習模型,就會喚醒機器學習服務,Aurora ML自動將查詢結果交給機器學習模型進行推理,返回結果。例如,要查詢一個客戶評價是正面還是負面,資料庫開發者只管做資料庫查詢、選擇這個模型,返回來的查詢結果就會自動附加正面或負面判斷。類似地,出海電商想把資料庫中的商品資訊變成多語種,資料庫開發者只管查詢商品資訊、選擇多語種翻譯,返回的結果就會自動包含商品資訊的多語種翻譯。

Amazon Athena是資料分析師經常用到的服務。通過這項服務,可以直接從Amazon S3上的物件檔案中,利用SQL語句進行資料查詢(SQL是結構化查詢語言,原本用於關係型資料查詢,而S3的物件檔案不是關係型資料)。AWS也推出了新功能Amazon Athena ML,查詢返回的結果也可以自動附帶機器學習推理的結果。

Amazon Redshift是雲原生的資料倉儲。AWS推出的新功能Amazon Redshift ML,甚至把選擇模型這一步省了。舉一個例子,電商領域經常會哪些客戶有可能流失,這時你可能並沒有一個模型來判斷什麼樣特徵的客戶有可能會流失。通過Redshift ML,資料分析師只管SQL查詢,Redshift ML可以把資料匯入S3,然後SageMaker的Autopilot功能結合。Autopilot是一個自動建模的功能。這樣的Redshift ML可以自動進行資料清洗、模型訓練,選擇最優的模型進行預測。

Amazon Neptune是AWS的一個圖資料庫,主要用於知識圖譜、身份圖譜、欺詐檢測、推薦引擎、社交關係、生命科學等場景,用圖的方式表示各個資料實體之間的關係,例如,好友關係圖。對圖資料庫,只是表示出資料的相關性顯然不夠,使用者更需要的是,根據這些相關性進行機器學習推理。新功能Neptune ML,就是將圖資料庫和機器學習打通,通過機器學習模型去訪圖資料庫,進行更精準的預測。

Amazon QuickSight是AWS的一個商業智慧(BI)服務,可以輕鬆地呼叫各種資料進行分析和展現。AWS於2020年5月推出了QuickSight ML新功能,它也跟SageMaker的Autopilot功能進行了結合,資料分析人員可以用它開展欺詐檢測、銷售預測等工作。

在今年的re:Invent大會上,AWS推出了更酷的機器學習新功能QuickSight Q。通過它,可以用自然語言對資料進行提問,獲得想要的資料洞察。例如,直接在查詢框中輸入“我們的同比增長率是多少?”幾秒鐘之內就可以得到高度準確的答案。如果按以往的方式,需要在模型中預先定義增長率、更新模型、處理資料,可能需要幾天甚至幾周時間。

AWS還推出了Amazon Lookout For Metrics,它利用機器學習技術,通過企業多種資料的比對,檢測出資料異常。顧凡舉例說,一件商品的售價200元,在某個資料來源變成了20元。通過Amazon Lookout For Metrics找出這種異常資料,意義重大。如果是線上銷售中出現這樣的價格錯誤,有可能給企業帶來巨大的損失。

此外,AWS還發布了利用機器學習的運維服務Amazon DevOps Guru,它可以幫助應用開發人員自動檢測運維操作的問題,給出建議補救措施,提高應用程式可用性。此前,AWS已經推出了Amazon CodeGuru,可以讓開發人員使用機器學習自動進行程式碼稽核,並且提供指導和建議。

Amazon SageMaker再添九項新功能,快上加快,簡單再簡單

擴圈舉措之四,大力發展機器學習的中間力量。如前所述,Amazon SageMaker是面向機器學習開發者的一個整合開發環境,是一項全託管的服務。它消除了機器學習過程中每個階段的挑戰,化繁為簡,使開發人員和資料科學家能夠從根本上更輕鬆、更快速地構建、訓練和部署機器學習模型。Amazon SageMaker的功能也在快速迭代中,過去一年就交付了50多項新功能。在今年的re:Invent大會上,AWS再次釋出9項新功能。

(1) Data Wranger,資料特徵提取器。Amazon SageMaker Data Wrangler可以簡化機器學習的資料準備工作。機器學習訓練中有一個重要的工作,稱為特徵工程,就是從不同來源、格式多樣的資料提取資料,形成規範化的資料欄位(也稱為特徵),作為機器學習模型的輸入,這項工作非常耗時。通過Data Wrangler,客戶可以將各種資料儲存中的資料一鍵匯入。Data Wrangler內建了300多個資料轉換器,讓客戶無需編寫任何程式碼,就可以機器學習用到的特徵進行規範化、轉換和組合。客戶可以通過在SageMaker Studio(首個用於機器學習的端到端整合開發環境)中檢視這些轉換,快速預覽和檢查這些轉換是否符合預期。

(2) Feature Store,資料特徵儲存庫。鑑於有大量的特徵需要管理,AWS為Amazon SageMaker推出了一項新功能,名為Feature Store。它一個用於更新、檢索和共享機器學習特徵的專用庫。通過Data Wrangler把特徵設計出來以後,可以儲存在Feature Store 中,以供重複使用。一組特徵會用於不同的模型,被多個開發人員和資料科學家使用,需要有效地跟蹤、管理這些特徵,及時更新,保持一致性。模型訓練和利用模型進行推理(也就是實際運用模型),對特徵的使用場景也不同。在訓練過程中,模型可以離線、批量地訪問特徵,使用時間長。而對於推理,通常只用到特徵庫的一部分,不過需要實時訪問,幾毫秒內返回預測結果。因此,如何特徵庫的管理是一件複雜的事兒,Feature Store就用於解決這些問題。

(3) Pipelines,自動化工作流。跟傳統程式設計一樣,編排和自動化可以提高機器學習的效率。Amazon SageMaker Pipelines是第一個專為機器學習構建的、方便易用的CI/CD(持續整合和持續交付)服務。

(4) Clarify,模型偏差檢測。通過Amazon SageMaker Clarify,開發人員可以方便地檢測整個機器學習工作流中的統計偏差,為機器學習模型所做的預測做出解釋,識別偏差,清晰描述可能的偏差來源及其嚴重程度,指導開發人員採取措施減小偏差。

(5) Deep Profiling for Amazon SageMaker Debugger,對模型訓練進行剖析。通過Deep Profiling,能夠自動監控系統資源利用率,例如 GPU、CPU、網路吞吐量和記憶體 I/O,對訓練過程中的資源瓶頸進行告警,讓開發者及時排程資源,更快地訓練模型。

(6-7) Distributed Training,大型複雜深度學習模型的分散式訓練。AWS提供了兩種方法,模型訓練拆分到幾百、幾千個CPU上進行。一個是資料並行引擎,對資料集進行拆分。一個是模型並行引擎,自動剖析、識別分割模型的最佳方式,在多個 GPU上高效分割具有幾十億引數的大型複雜模型。通過對訓練進行拆分,Amazon SageMaker可以將訓練大型複雜深度學習模型的速度比當前的方法快兩倍。

(8) Edge Manager,邊緣端模型質量監控和管理。Amazon SageMaker Edge Manager 可以幫助開發人員優化、保護、監控和維護部署在邊緣裝置叢集上的機器學習模型。模型部署到邊緣裝置以後,仍然需要管理和監控模型,確保它們持續以高精度執行。當模型的準確性隨著時間的推移而下降時,開發人員可以重新訓練模型,不斷提高模型的質量。

(9) JumpStart,快捷起步工具。通過Amazon SageMaker JumpStart,客戶可以快速找到跟自己類似的機器學習場景相關資訊。新手開發人員可以從多個完整的解決方案進行選擇,例如欺詐檢測、客戶流失預測或時序預測,直接部署到自己的Amazon SageMaker Studio環境中。有一些經驗的使用者則可以從100多個機器學習模型中選擇,快速開始模型構建和訓練。

不斷豐富的新功能,讓Amazon SageMaker備受客戶歡迎。它推出短短三年時間,已經有幾萬家客戶在使用,包括3M、ADP、阿斯利康、Avis、拜耳、Bundesliga、Capital One、Cerner、Chick-fil-A、Convoy、達美樂比薩、富達投資、GE醫療、Georgia-Pacific、赫斯特、iFood、iHeartMedia、摩根大通、Intuit、聯想、Lyft、國家橄欖球聯盟、Nerdwallet、T-Mobile、湯森路透、Vanguard等等。

AWS的系列擴圈之舉,背後是AWS對機器學習的雄心。Swami說,15年前他研究生畢業,有幸進入AWS開始雲端計算事業。如今可以毫無不誇張地說,雲端計算釋放出巨大的力量,幫助各種創業公司和成熟企業取得了巨大的成功。機器學習目前就處於那樣的早期階段。我們從Swami的字裡行間可以讀出,機器學習就是AWS的下一個金礦。

關於亞馬遜re:Invent

始於2012年,亞馬遜 re:Invent是全球雲端計算引領者——亞馬遜雲服務(AWS)舉辦的年度盛會,也是全球雲端計算領域全面而盛大的行業峰會。每年的 亞馬遜 re:Invent都會發布一系列引領未來的創新技術和服務,邀請全球各個行業、各種規模的客戶及AWS合作伙伴分享最新商業創新實踐,因而成為了雲端計算行業的風向標,吸引著全世界開發者與使用者的廣泛關注和參與。

“巔峰科技,重塑未來。”亞馬遜 re:Invent 2020整裝待發。長達3周(2020年12月1日—12月18日)的線上峰會,首次對公眾免費開放。歡迎訪問:https://reinvent.awsevents.cn/ 觀看各項議程。