阿里雲大資料計算服務MaxCompute使用教程
關於阿里雲大資料計算服務MaxCompute的詳細內容:
(MaxCompute(原ODPS)是一項大資料計算服務,它能提供快速、完全託管的PB級資料倉儲解決方案,使您可以經濟並高效的分析處理海量資料。)
大資料計算服務(MaxCompute,原名 ODPS)是一種快速、完全託管的 GB/TB/PB 級資料倉儲解決方案。MaxCompute 為您提供了完善的資料匯入方案以及多種經典的分散式計算模型,能夠更快速的解決海量資料計算問題,有效降低企業成本,並保障資料安全。
同時,大資料開發套件和 MaxCompute 關係緊密,大資料開發套件為 MaxCompute 提供了一站式的資料同步,任務開發,資料工作流開發,資料管理和資料運維等功能,詳情請參見大資料開發套件。
MaxCompute 主要服務於批量結構化資料的儲存和計算,可以提供海量資料倉儲的解決方案以及針對大資料的分析建模服務。隨著社會資料收集手段的不斷豐富及完善,越來越多的行業資料被積累下來。資料規模已經增長到了傳統軟體行業無法承載的海量資料(百 GB、TB 乃至 PB)級別。
在分析海量資料場景下,由於單臺伺服器的處理能力限制,資料分析者通常採用分散式計算模式。但分散式的計算模型對資料分析人員提出了較高的要求,且不易維護。使用分散式模型,資料分析人員不僅需要了解業務需求,同時還需要熟悉底層計算模型。MaxCompute 的目的是為您提供一種便捷的分析處理海量資料的手段,您可以不必關心分散式計算細節,便可達到分析大資料的目的。
MaxCompute 已經在阿里巴巴集團內部得到大規模應用,例如:大型網際網路企業的資料倉儲和 BI 分析、網站的日誌分析、電子商務網站的交易分析、使用者特徵和興趣挖掘等。
產品優勢
大規模計算儲存:MaxCompute 適用於 100GB 以上規模的儲存及計算需求,最大可達 EB 級別。
多種計算模型:MaxCompute 支援 SQL、MapReduce、Graph 等計算型別及 MPI 迭代類演算法。
強資料安全:MaxCompute 已穩定支撐阿里全部離線分析業務7年以上,提供多層沙箱防護及監控。
低成本:與企業自建私有云相比,MaxCompute 的計算儲存更高效,可以降低 20%-30% 的採購成本。
功能概述
資料通道
支援批量、歷史資料通道
TUNNEL是 MaxCompute 為您提供的資料傳輸服務,提供高併發的離線資料上傳下載服務。支援每天 TB/PB 級別的資料匯入匯出,特別適合於全量資料或歷史資料的批量匯入。Tunnel 提供 Java 程式設計介面供您使用,並且在 MaxCompute 的客戶端工具中,有對應的命令實現本地檔案與服務資料的互通。
實時、增量資料通道
針對實時資料上傳的場景,MaxCompute 提供了延遲低、使用方便的 DataHub 服務,特別適用於增量資料的匯入。Datahub 還支援多種資料傳輸外掛,例如:Logstash、Flume、Fluentd、Sqoop 等,同時支援日誌服務 Log Service 中的日誌資料一鍵投遞至 MaxCompute,進而使用大資料開發套件進行日誌分析和挖掘。
計算及分析任務
MaxCompute 支援多種計算模型,詳情如下:
SQL:MaxCompute 只能以表的形式儲存資料,並對外提供了 SQL 查詢功能。您可以將 MaxCompute 作為傳統的資料庫軟體操作,但其卻能處理 TB、PB 級別的海量資料。
注意:
MaxCompute SQL 不支援事務、索引及 Update/Delete 等操作。
MaxCompute 的 SQL 語法與 Oracle,MySQL 有一定差別,您無法將其他資料庫中的 SQL 語句無縫遷移到 MaxCompute 上來。
在使用方式上,MaxCompute SQL 最快可以在分鐘,乃至秒級別完成查詢,無法在毫秒級別返回結果。
MaxCompute SQL 的優點是學習成本低,您不需要了解複雜的分散式計算概念。如果您具備資料庫操作經驗,便可快速熟悉 MaxCompute SQL 的使用。
UDF:即使用者自定義函式。
MaxCompute 提供了很多 內建函式 來滿足您的計算需求,同時您還可以通過建立自定義函式來滿足不同的計算需求。
MapReduce:MaxCompute MapReduce 是 MaxCompute 提供的 Java MapReduce 程式設計模型,它雖與通用的 MapReduce 有所區別,但可以簡化開發流程,更為高效。您若使用 MaxCompute MapReduce,需要對分散式計算概念有基本瞭解,並有相對應的程式設計經驗。MaxCompute MapReduce 為您提供 Java 程式設計介面。
Graph:MaxCompute 提供的 Graph 功能是一套面向迭代的圖計算處理框架。圖計算作業使用圖進行建模,圖由點 (Vertex)和邊(Edge)組成,點和邊包含權值(Value)。通過迭代對圖進行編輯、演化,最終求解出結果,典型應用:PageRank,單源最短距離演算法 ,K-均值聚類演算法 等。
SDK:SDK 是 MaxCompute 提供給開發者的工具包.
安全:MaxCompute 提供了功能強大的安全服務,為您的資料安全提供保護。
後續步驟:現在,您已經學習了 MaxCompute 的產品優勢、功能特性等相關簡介,您可以繼續學習下一個教程。在該教程中您將快速瞭解如何使用 MaxCompute。
發展歷程
更新時間:2017-09-08 08:19:17
從 2009 年 9 月阿里雲成立,願景就是做運算/分享資料的第一平臺。2010 年 4 月,伴隨阿里金融的貸款業務上線,ODPS 正式投入生產執行,2012 年建立統一資料平臺,2013 年具備超大規模海量資料處理能力,2014~2015 年大資料平臺開始日趨成熟,2016 年 MaxCompute 2.0 誕生,成立之初的願景正在逐步實現。
關鍵性里程碑
2010.04 ODPS 正式投入生產執行。阿里金融的貸款業務上線穩定執行。
2013.05 ODPS 公測。
2013.07 ODPS 正式提供商業化服務,單叢集規模 5K 臺伺服器多級群能力。
2016.09 ODPS 正式更名為 MaxCompute,並推出 MaxCompute 2.0,實現高效能,新功能,富生態。
更多精品課程點選:阿里雲大學
相關文章
- 阿里雲訊息服務使用教程阿里
- 阿里雲大資料認證——使用MaxCompute進行資料質量核查-課堂筆記阿里大資料筆記
- 雲端計算的三大服務模式模式
- 雲端計算教程學習入門,雲端計算使用者如何使用雲服務產品?
- 大資料學習筆記之十 雲端計算、Web服務、網格計算的聯絡大資料筆記Web
- 服務計算 SO 服務的設計
- MaxCompute 圖計算使用者手冊(下)
- MaxCompute 圖計算使用者手冊(上)
- 基於AWS雲服務的大資料與大規模計算的應用架構大資料應用架構
- nova計算服務
- 大資料計算:結構化大資料計算的理想模式大資料模式
- 大資料計算生態之資料計算(二)大資料
- 大資料計算生態之資料計算(一)大資料
- 客戶服務管理資料視覺化大屏製作教程視覺化
- 使用Alluxio(前Tachyon)來加速大資料計算UX大資料
- 阿里吳永明:高可用大資料計算服務如何持續釋出和演進!阿里大資料
- MaxCompute 圖計算開發指南
- 通過DataWorks資料整合歸檔日誌服務資料至MaxCompute進行離線分析
- 雲端計算大資料面試題,雲端計算大資料面試題集錦大資料面試題
- 雲端計算和大資料大資料
- 阿里雲資源編排服務JavaSDK使用入門阿里Java
- MaxCompute在高德大資料上的應用大資料
- 雲端計算與大資料[4]大資料
- 大資料計算的基石——MapReduce大資料
- BeetleX大資料之產品分析服務大資料
- 好程式設計師雲端計算教程分享雲服務和雲端計算的區別有那些程式設計師
- 雲端計算教程學習入門影片課件:雲端計算基礎服務元件講解元件
- 智慧計算為生物醫藥行業提效,200餘家行業機構使用阿里雲智算服務行業阿里
- 大資料教程:Transformation和Action運算元演示大資料ORM
- 小米大資料儲存服務的資料治理實踐大資料
- 雲端計算管理平臺之OpenStack計算服務nova
- Virtuoso計算器使用教程
- 王堅十年前的堅持,才有了今天世界頂級大資料計算平臺MaxCompute大資料
- 大資料時代的客戶服務未來大資料
- 大資料與雲端計算概論大資料
- 人工智慧+大資料+雲端計算人工智慧大資料
- 大資料時代下的雲端計算大資料
- 阿里雲簡訊服務使用代理的坑阿里