亞馬遜：大資料和雲端計算是天作之合

Web開發者發表於2013-08-30

　　亞馬遜雲端計算AWS首席資料科學家Matt Wood認為，大資料和雲端計算是天作之合，雲端計算平臺的海量低成本的資料儲存與處理資源為大資料分享提供了可能。

AWS首席資料科學家Matt Wood

　　Matt Wood一天的工作不僅僅是幫亞馬遜員工完成資料淘金工作，他還需要設法取悅亞馬遜的客戶。Wood幫助AWS的使用者利用亞馬遜雲端計算資源搭建大資料架構，然後根據客戶需求設計產品，例如資料管道服務（Data Pipeline Service）和本週釋出的Redshift資料倉儲服務。

　　關於基於雲端計算的大資料服務的發展趨勢，GigaOM的記者採訪了Matt Wood，會談的亮點摘錄如下：

　　從資源優先到業務優先

　　不久前，電腦科學家已經掌握了今日之所謂資料科學的理論和概念，但當時的資源有限，能夠進行的資料分析型別也很有限。
如今，資料儲存和處理資源已經極大豐富和廉價，這使得大資料的概念成為可能。而云計算則進一步降低了資料儲存和處理資源的成本，容量也更大。這意味著資料分析的觀念正在經歷一次重大的範型轉移，從過去資源優先轉向以企業需求為先。

　　如果他們能夠突破傳統的資料取樣和處理模式，一個人就能專注於要做的事情，因為資源太多了。例如，點評網站Yelp允許開發者無限制使用Elastic MapReduce，這樣開發者就不必為了測試某個瘋狂想法而走繁瑣的資源申請流程。Yelp能夠在一年前發現網站流量的移動化趨勢並及時開展移動業務都得益於此。

　　資料的問題不都是規模

　　總的來說，客戶的資料問題並不都是如何更低的成本儲存更多的資料，你不一定需要1PB的資料才能分析出誰是你社交遊戲的使用者。

　　實際上，能夠無限制的儲存和處理資料本身會產生新的問題。公司希望能夠儲存所有產生的資料，這會導致複雜性增加。從亞馬遜的S3和DynamoDB服務到企業資料中心的物理伺服器，當資料在所有的庫中都堆積如山時，資料轉移和複用的難度也會變得很大。

　　AWS新推出的資料管道服務（Data Pipeline Service）就是為了解決這個問題。管道非常複雜，從執行一個簡單的資料業務邏輯到在Elastic MapReduce上執行所有的批任務，資料管道服務的目的就是將資料的移動和處理自動化，使用者無需自己建立這些工作流程並手動執行。

aws_data_pipeline_console

AWS資料管道服務控制檯

　　把大資料快遞給雲端計算

　　人們有時候會質疑雲端計算與大資料任務之間的相關度，因為如果將企業內部系統產生的資料都上傳到雲端，由於受到網速限制，資料規模越大，上傳的時間就越長。為了解決這個問題，亞馬遜想盡各種辦法，包括與Aspera合作，甚至與那些研究在網際網路上快速轉移大檔案（Wood說見過700MB/秒的技術）的開源專案合作。此外，亞馬遜還取消了傳入資料的收費，並開啟了並行上傳功能。此外亞馬遜還與資料中心運營者合作啟動了直連專案（Direct Connect Program），為亞馬遜AWS設施提供專線連線。

　　最後，如果客戶的資料量實在太大，網速又不夠快，還可以直接將存有資料的硬碟快遞給亞馬遜。

　　協作是未來趨勢

　　當資料遷移到雲端後，就開啟了一種全興的協作方式，研究人員，乃至整個行業都能訪問和分享這些過去因體量太大而無法移動的資料。一些產生海量資料的行業已經開始在雲端分享資料，例如AWS上已經託管的1000個基因組專案。

dnanexus

　　DNAnexus的雲架構

　　遺傳學專案從雲端計算中受益匪淺，雖然AWS上的1000個基因組專案的資料庫只有200TB，但是單個專案很少有足夠的預算儲存這麼多資料並與同事分享。即使在資金充裕的醫藥領域，亞馬遜CTO Werner Vogels曾說過，醫藥企業正在使用雲端計算分享資料，企業們也無需花費時間和金錢"重新發明車輪"。

　　不再需要超級計算機？

　　Wood對亞馬遜高效能運算客戶在AWS平臺上的工作印象深刻——這些工作過去必須依賴超級計算機才能完成。這要感謝AWS的合作伙伴Cycle Computing，維斯康辛大學如今在AWS上能夠一週內完成過去需要116年的計算任務。AWS正在不斷增加例項的配置和效能，從最大的250GB記憶體到GPU叢集計算例項，AWS都將提供。出於成本的考慮，AWS目前僅在一部分市場提供叢集計算例項和Elastic MapReduce。

　　如今很多執行資料密集型工作負載的企業都開始將目光投向雲端計算。大資料（尤其是Hadoop）和雲端計算年紀相仿，相輔相成，可謂天作之合。

大資料與雲端計算：並非天作之合
2017-09-05
大資料
大資料和雲端計算是什麼關係發展前景如何？
2013-08-27
大資料
學雲端計算與大資料前景如何？雲端計算是怎麼分類的？
2019-07-25
大資料
AWS雲端計算是亞馬遜未來發展的關鍵
2015-07-26
亞馬遜
雲端計算和大資料
2017-12-29
大資料
雲端計算是資料分析的最佳場所嗎?
2018-03-29
學習大資料和雲端計算是不是都是會有不錯的發展前景
2021-08-25
大資料
再看雲端計算是否安全
2012-07-08
亞馬遜雲端吞食微軟資料
2013-04-18
亞馬遜微軟
雲端計算：雲端計算是怎麼分類的？
2019-08-02
雲端計算和大資料學哪個好？雲端計算學習
2021-01-20
大資料
雲端計算是被逼出來的
2010-05-24
雲端計算大資料面試題，雲端計算大資料面試題集錦
2019-06-19
大資料面試題
總理力挺雲端計算和大資料
2014-07-29
大資料
什麼叫雲端計算？雲端計算是什麼意思
2018-02-02
雲端計算和資料
2010-05-16
雲端計算是與否辨別方法
2014-05-08
雲端計算就業前景如何？雲端計算是什麼意思？
2018-07-02
就業
大資料和雲端計算註定“糾纏不清”？
2018-12-24
大資料
雲端計算和大資料有什麼關係？
2014-12-15
大資料
雲端計算與大資料[4]
2020-10-24
大資料
大資料公司雲端計算巨頭的耦合：神策資料與亞馬遜雲科技相互加持
2021-05-28
大資料亞馬遜
雲端計算是什麼意思？3張圖看懂雲端計算架構
2017-07-28
架構
究竟多大才算是大資料，大資料怎麼學習？
2019-07-27
大資料
雲端計算和大資料的區別與關係
2020-06-17
大資料
雲端計算、大資料和人工智慧的關係
2019-03-09
大資料人工智慧
NBA算是大資料的鼻祖？–資訊圖
2014-04-02
大資料
雲原生和雲端計算是什麼？兩者有何區別？
2023-02-23
大資料與雲端計算概論
2020-12-18
大資料
人工智慧+大資料+雲端計算
2018-03-21
人工智慧大資料
大資料時代下的雲端計算
2012-03-16
大資料
雲端計算和大資料未來發展趨勢分析
2019-06-06
大資料
開源模式下的雲端計算和大資料現狀
2018-06-06
模式大資料
雲端計算是否會扼殺了Hadoop？
2022-01-14
Hadoop
雲端計算是否會讓Hadoop過時
2021-05-07
Hadoop
雲端計算是否威脅到硬體業
2017-09-05
雲端計算是一種破壞性創新
2011-04-13
今天好程式設計師雲端計算教程分享雲端計算是什麼，和Linux什麼關係
2019-11-27
程式設計師Linux

亞馬遜：大資料和雲端計算是天作之合

相關文章