基於AWS雲服務的大資料與大規模計算的應用架構
AWS對於大規模計算方案是很受歡迎的,如科學計算,模擬和研究專案。這些方案包括從科研裝置,測量裝置,或其他計算作業的大量資料集的採集。採集後,使用大規模計算作業的分析來生成最終資料集。通常,這些結果將提供給更多的受眾。
1. 為了將大資料集上傳到AWS,關鍵是擁有最多的可用頻寬。 通過多客戶端的並行處理,就可以把資料上傳到S3, 每個客戶端採用多執行緒技術實現並行上傳或上傳多部分以便進一步並行處理。像視窗調整和確認選擇等TCP設定是可以調整的,以便進一步增強吞吐量。 通過適當的優化,一天上傳幾TB是可能的。另一種上傳大資料集的方法是Amazon Import/Export功能, 這一功能支援將儲存裝置傳送給AWS同時直接插入到Amazon S3 或者 Amazon EBS。
2. 大規模作業的並行處理是關鍵,現存的並行處理應用能夠執行在多個EC2 例項上. 如果應用程式需要一個POSIX風格的檔案系統,那麼無論是直接使用HTTP或使用FUSE層(例如,S3FS或SubCloud),並行應用程式對所有節點都可以從S3高效地讀取和寫入資料。
3. 一旦計算完成,結果資料也被儲存到S3, EC2 例項可以被關閉,並且將結果資料集就可被下載了,或者通過授予讀取許可權來指定使用者,指定所有人或使用有限時間的URL,完成輸出資料與他人的共享。
4. 如果不用 S3, 也可以使用 Amazon EBS儲存輸入資料,作為臨時儲存區,或者獲得輸出結果。 在上傳期間,要同樣採用並行流上傳和TCP調整的技術。另外,還可以使用UDP使上傳加速。結果資料集可以被寫入EBS卷,時間快照可採取共享卷的方式。
相關文章
- 基於AWS雲服務的批處理系統架構架構
- 基於AWS的檔案同步服務系統架構架構
- 基於雲服務的個人網站架構設計網站架構
- 【轉載】大資料workshop:《雲資料·大計算:海量日誌資料分析與應用》大資料
- 基於滴滴雲的棋牌遊戲服務端架構設計遊戲服務端架構
- Hulu大資料架構與應用經驗大資料架構
- 雲服務OpenAPI的7大挑戰,架構師如何應對?API架構
- 雲服務 OpenAPI 的 7 大挑戰,架構師如何應對?API架構
- 基於雲邊協同架構的五大應用場景革新架構
- 阿里雲大資料計算服務MaxCompute使用教程阿里大資料
- 大資料應用於智慧交通產業發展規模分析大資料產業
- 大規模MySQL運維陷阱之基於MyCat的偽分散式架構MySql運維分散式架構
- 大資料計算:結構化大資料計算的理想模式大資料模式
- 大資料Lambda架構概念及應用大資料架構
- SaaS架構:應用服務、應用結構設計架構
- 基於大資料的精準營銷與應用場景大資料
- 尋路大資料:海量資料與大規模分析大資料
- Gartner:資料顯示亞馬遜雲服務規模是14大對手總和的10倍亞馬遜
- 基於阿里雲服務搭建的典型技術架構阿里架構
- Scala在Databricks的大規模應用
- 小米隨星借基於成熟的大資料風控體系與業務規模大資料
- 大規模資料傳輸,知易行難 — 資料傳輸與 ETL 平臺的架構演進架構
- 大資料workshop:《雲資料·大計算:海量日誌資料分析與應用》之《社交資料分析:好友推薦》篇大資料
- AWS釋出五大用於工業領域的機器學習服務機器學習
- 雲端計算的三大服務模式模式
- 什麼樣的IT架構滿足大資料應用需要?架構大資料
- 基於Hadoop的大資料平臺實施——整體架構設計Hadoop大資料架構
- 使用Apache Hudi構建大規模、事務性資料湖Apache
- RocketMQ DLedger架構在小米的大規模實踐MQ架構
- 大規模文字相似度計算
- 華夏航空全面採用AWS構建雲基礎架構架構
- AWS雲服務
- 大資料workshop:《雲資料·大計算:海量日誌資料分析與應用》之《資料分析展現:視覺化報表及嵌入應用》篇大資料視覺化
- 基於畢昇上線基於大模型對應服務大模型
- 政府飛上“雲”端:大資料時代的政務服務大資料
- Flashtext:大規模資料清洗的利器
- 大資料分析的應用與弊端大資料
- 任務全鏈路診斷助雲音樂大規模計算資源最佳化