2022亞馬遜雲科技 re:Invent 全球大會正在拉斯維加斯如火如荼進行中，亞馬遜雲科技資料與機器學習副總裁 Swami Sivasubramanian 博士發表了“資料與機器學習如何助力企業構建端到端的資料戰略”的主題演講來開啟第三天的日程。

　　Swami 博士重點介紹了亞馬遜雲科技在資料庫、資料分析和機器學習領域的最新創新，以及這些創新如何幫助企業構建基於“面向未來的資料基礎設施”、“跨組織的資料連結”和“資料普惠化”三個核心要素的端到端資料戰略，從而幫助企業將資料轉化為對業務有意義的見解和行動，驅動企業藉助資料推動下一波創新。

　　Swami 博士首先透過人類大腦是如何透過資料分析產生創造性的想法做類比，企業資料分析與人腦資料分析有相似之處，但又有很大的不同。他指出，與人腦不同，企業資料處理和分析中往往會遇到一些挑戰，主要包括：

　　1. 沒有一個集中的儲存庫來收集所有資料，這通常意味著它會導致跨整個組織的資料孤島和資料不一致，清理海量資料並將其儲存在可訪問的位置需要花費大量的時間和精力；

　　2. 企業資料並不是自動化處理的，企業必須在資料基礎設施中建立自動化機制來減少手動重複性操作和成本高昂的更新；

　　3. 企業資料也不會在應用間自由流動，不像大腦中神經傳輸路徑一樣，企業需要建立複雜的通道來將資料移動到正確的位置，並且保證需要訪問的個人隨時隨地能訪問到；

　　4. 資料也不容易被分析或者視覺化，企業很難快速找到資料之間的聯絡，從而激發創意和洞察力。

　　“我堅信資料是現代發明的起源，” Swami博士提到，“為了更好地利用資料來提升客戶體驗，推動業務創新，今天的組織需要構建合適的資料戰略，以資料推動決策。”

　　亞馬遜雲科技以超過15年的資料創新經驗

　　賦能企業構建合適的資料戰略

　　在探索適合企業的資料戰略的道路上，企業並不孤單。亞馬遜雲科技有著超過15年的資料領域創新經驗。我們一直在嘗試透過創新的方法去改進資料儲存和分析的過程：我們在雲中提供了第一個可擴充套件儲存服務 S3、釋出了雲上第一個專門構建的資料庫 DynamoDB 和第一個完全託管的資料倉儲服務 Redshift 以及更多持續釋出的新功能和新服務，幫助客戶更容易地建立、儲存和分析資料。

　　今天，全世界有超過150萬家公司來亞馬遜雲科技尋求資料服務上的幫助，包括資料庫、資料分析和機器學習服務。像 Toyota（豐田）、Coca-Cola（可口可樂）、 Capital One 等等，這些知名公司都用我們的服務來建立完整的資料戰略。還有 Bristol Myers Squibb 透過運用我們的資料服務，把單細胞資料應用在他們的診斷和開發裡面。此外，Hyundai（現代）也用我們的平臺來分析他們的機器學習模型，極大地降低了他們的機器學習時間。

　　Swami 博士指出，基於亞馬遜雲科技的經驗，我們認為資料戰略有三個關鍵核心要素：

　　1. 建立面向未來的資料基礎設施

　　面向未來的資料基礎設施，應具備四個要素：

　　1. 需要有正確的資料庫工具來應對所有型別的工作負載；

　　2. 可以在大規模的情況下進行高效能的執行；

　　3. 不需要我們做非常多的重複工作；

　　4. 需要高可靠性和高伸縮性。

　　2. 實現安全高效的跨組織資料連結

　　同樣，企業可以使用一個合作系統來連線孤立的團隊，為重要資源創造快捷安全的訪問途徑，使用正確資料治理系統，藉助高質量的工具和資料來推動未來的增長。

　　3. 透過工具和教育實現資料普惠化

　　亞馬遜雲科技預計到2029年，人工智慧勞動力將增加100萬個工作崗位，但培育合適的技能和人選來填補這些空缺將是一項重大挑戰。亞馬遜雲科技正在幫助社群學院和 MSIs 加大教育力度，推出新的亞馬遜雲科技機器學習大學教育培訓計劃，提供動手培訓課程，為培育新一代勞動力做好準備。

　　此外，低程式碼和無程式碼工具對許多企業來說也是一個重要輔助工具，Amazon SageMaker Canvas 還為使用者提供了一個無程式碼選項，可以幫助使用者無需編寫程式碼即可實現基於機器學習的預測。

　　基於以上端到端資料戰略的三個核心要素，亞馬遜雲科技幫助企業將資料轉化為對業務有意義的見解和行動，驅動企業藉助資料推動下一波創新。Swami 博士在他的演講中釋出了多項亞馬遜雲科技資料庫、資料分析和機器學習服務的功能升級與新特性。

　　一

　　強大的雲原生資料能力，以幫助企業擴充套件其資料庫和資料分析服務，並確保資料安全與資料質量

　　1. Amazon Athena for Apache Spark

　　更簡易直觀的資料分析服務

　　Swami 博士指出，亞馬遜雲科技推出的 Amazon Athena 服務以其易用性而廣為流行，已有數以萬計的客戶註冊。為了幫助使用者以一種更直觀的方式來執行復雜的資料分析，讓使用者將更多的時間用於洞察，而不是等待結果，我們推出 Amazon Athena for Apache Spark ，這項服務不到1秒鐘的時間就可以執行互動式的 Spark 資料分析應用，它比其他類似的 Spark 解決方案快75倍。

　　2. Amazon DocumentDB Elastic Clusters

　　完全託管型解決方案

　　Swami 博士表示，亞馬遜雲科技為企業提供所需工具來幫助提供可擴充套件性和處理能力。接下來，他釋出了 Amazon DocumentDB Elastic Clusters，這是一個完全託管的資料庫擴充套件特性，可以幫助 DocumentDB 根據流量需求輕鬆實現上下擴充套件。它可以在幾分鐘內彈性擴充套件工作負載，甚至可以自動管理底層基礎設施，降低運維的時間成本。

　　3. Amazon Redshift Multi-AZ

　　高可用性與高可靠性

　　Swami 博士指出，可靠性和安全性是各企業選取雲服務商的關鍵考慮因素。“你需要採取適當的保障措施。”他強調了亞馬遜雲科技構建此類安全可靠服務的悠久歷史。然而客戶總是有著更多需求，尤其是在應用程式和資料庫方面。因此，新的 Amazon Redshift Multi-AZ 功能將有助於為 Mission-critical 的分析任務工作負載提供高可用性和可靠性。

　　4. Tusted Language Extensions

　　for PostgreSQL 快速整合資料

　　為了幫助提升 PostgreSQL 擴充套件程式的安全性，Swami 博士宣佈推出 Trusted Language Extensions for PostgreSQL 服務，這是一個新的開源專案，支援 Amazon RDS 和 Aurora 上的 PostgreSQL 擴充套件程式。這些語言和延伸可以讓你非常安全地把它加入到你資料的基礎設施上，同時也可以得到亞馬遜雲科技的認證。有了這樣的解決方案，我們的客戶就可以非常快速地整合他們的資料，還可以基於他們核心的資料庫來開發應用。亞馬遜雲科技將會不斷地向開源社群做新貢獻。

　　5. Amazon GuardDuty RDS Protection

　　智慧化威脅檢測，守護資料安全

　　為了保護RDS資料庫的安全，亞馬遜雲科技還宣佈推出 Amazon GuardDuty RDS 保護解決方案。只要一個點選，Amazon GuardDuty RDS Protection 就可以在 Amazon Aurora 上面執行基於機器學習的智慧威脅檢測來保護你的資料，這也為企業資料保護提供了基礎，讓你可以在不同的資料儲存位置中把這些連線起來。

　　6. Amazon Glue Data Quality (Preview)

　　更好地管理資料湖質量

　　提到資料湖與資料質量，Swami 博士表示，保持資料質量需要各種手動建立的資料質量規則。為了更好地幫助客戶來管理資料湖中的資料質量，Swami 博士宣佈推出 Amazon Glue Data Quality 解決方案。

　　Amazon Glue Data Quality 可以進一步萃取資料價值，保證資料治理。每天從資料中自動建立資料質量規則，只需花幾個小時的時間就可以產生新鮮的高質量資料，以便客戶每天都能做出更明智的關鍵決策，這項服務可以將人工工作從幾天減少到幾小時。

　　7. Centralized Access Controls for Redshift Data Sharing

　　簡易且安全的資料訪問許可權管理

　　為了簡化 Redshift 資料訪問許可權管理，Swami 博士宣佈推出 Centralized Access Control for Redshift Data Sharing 平臺。基於這個平臺，你可以非常容易地在內部執行一個集中的資料管理，透過這項服務你可以管理不同的查詢，也可以管理獲取某一種資料的許可權，這也有助於維護資料安全。客戶能夠在執行許可權管理的情況下進入各個不同的資料分佈。

　　8. Amazon Redshift auto-copy from S3

　　簡化資料分析與移動

　　Swami 博士指出，客戶正在尋找更簡單的方法來移動和分析大資料，亞馬遜雲科技希望做到這一點。Amazon Redshift auto-copy from S3 是一個新的自動複製功能，使建立和維護簡單的資料接收管道變得更加容易。

　　二

　　增加了資料治理和地理空間工具的機器學習平臺，助力機器學習普惠化

　　1. ML governance with Amazon SageMaker

　　三項新功能上線

　　現在越來越多的企業開始利用機器學習來進行資料管理，而機器學習技術又有著極高的技術門檻，因此很多客戶都需要募集資料科學家和資料工程師，耗費人力與物力。此外機器學習模型也難與他人共享。如果有一項工具可以解決這些難題，將是客戶的助力，因此我們推出 Amazon SageMaker。

　　Amazon SageMaker 推出五年來，亞馬遜雲科技一直穩步地實現 SageMaker 的產品升級，並使其成為企業最廣泛使用的 ML 平臺之一。Swami 博士宣佈，Amazon SageMaker 將推出三個機器學習的新功能，來簡化訪問控制，增強端到端機器學習部署的透明度、模型治理和可審計性。

　　三個機器學習的新功能分別是：Role Manager、Model Cards 和 Model Dashboard。SageMaker Role Manager 透過自動策略建立工具幫助組織為使用者定義關鍵許可權；Model Cards 主要是為 ML 模型文件建立一箇中心權威位置；Model Dashboard 為組織提供了 ML 模型效能的可見性和統一監控。Swami 博士表示：“這些是非常強大的治理功能，將幫助您構建 ML 治理責任，以解決權力許可權共享問題。”

　　2. Geospatial ML with Amazon SageMaker (Preview)

　　模型預測實現在地圖上的視覺化

　　近年來，地理空間資料在許多行業中的普及率大幅增長。但是處理地理空間資料也同樣會面臨各種挑戰，為了應對這些挑戰，亞馬遜雲科技宣佈 Amazon SageMaker 現在支援 Geospatial ML，只需單擊幾下即可訪問各種不同的資料，根據模型生成的預測也可以在地圖上視覺化。

　　同時，新的地理空間功能將 SageMaker 的 ML 模型構建能力範圍擴充套件到新興的地理空間工程領域，用於災害應對、城市規劃、物流和運輸等應用。Swami 博士說：“長期以來，我們一直致力於使 SageMaker 成為一個能夠容納多種資料型別的平臺，而您在地理空間中看到的絕對是正確的方向。”

　　3.Provided40NewDataConnectorstoDataWrangle

　　更多的資料聯結器上線

　　為了幫助使用者更好的使用外部資料執行 ML 模型的構建與訓練，Swami 博士宣佈亞馬遜 SageMaker 的幾十個新資料聯結器補充了為 LinkedIn 和 Google Ads 等平臺以及 Snowflake、Salesforce 和 SAP 等其他應用程式推出的其他22個新聯結器。Swami 博士說：“今天，Amazon SageMaker Data Wrangle 再次新增40多種新的資料來源，可將彙總和準備機器學習（ML）資料所需的時間從數週縮短至幾分鐘。”

　　4. Amazon Machine Learning University

　　now provides educator training

　　長期踐行資料普惠化

　　Swami 博士強調，讓資料普及，這是一個非常重要的行動，我們最終的目的是將資料普惠化。亞馬遜雲科技正在幫助社群學院和 MSIs 加大教育力度，推出新的亞馬遜雲科技機器學習大學教育培訓計劃，提供動手培訓課程，幫助下一代構建者做好準備。此外，低程式碼和無程式碼工具對許多企業來說也是一個重要的補充，Amazon SageMaker Canvas 還為使用者提供了一個無程式碼選項，可以幫助使用者無需編寫程式碼即可實現基於機器學習的預測。

　　最後，Swami 博士指出：“所有的設計靈感、創新靈感都是從一個點子開始，然後大家一起努力，為下一步的創新再去做努力。”我們用16年來的雲端計算技術積澱，去激發一個點子、推動下一步創新，亞馬遜雲科技所有的資料服務都致力於幫助您的企業更好地利用資料發揮關鍵作用。

15年磨一劍，亞馬遜雲科技資料產品掌門人Swami 揭秘雲原生資料戰略的三大關鍵要素

相關文章