亞馬遜:大資料和雲端計算是天作之合

Web開發者發表於2013-08-30

  亞馬遜雲端計算AWS首席資料科學家Matt Wood認為,大資料和雲端計算是天作之合,雲端計算平臺的海量低成本的資料儲存與處理資源為大資料分享提供了可能。

AWS首席資料科學家Matt Wood

  Matt Wood一天的工作不僅僅是幫亞馬遜員工完成資料淘金工作,他還需要設法取悅亞馬遜的客戶。Wood幫助AWS的使用者利用亞馬遜雲端計算資源搭建大資料架構,然後根據客戶需求設計產品,例如資料管道服務(Data Pipeline Service)和本週釋出的Redshift資料倉儲服務

  關於基於雲端計算的大資料服務的發展趨勢,GigaOM的記者採訪了Matt Wood,會談的亮點摘錄如下:

  從資源優先到業務優先

  不久前,電腦科學家已經掌握了今日之所謂資料科學的理論和概念,但當時的資源有限,能夠進行的資料分析型別也很有限。
如今,資料儲存和處理資源已經極大豐富和廉價,這使得大資料的概念成為可能。而云計算則進一步降低了資料儲存和處理資源的成本,容量也更大。這意味著資料分析的觀念正在經歷一次重大的範型轉移,從過去資源優先轉向以企業需求為先。

  如果他們能夠突破傳統的資料取樣和處理模式,一個人就能專注於要做的事情,因為資源太多了。例如,點評網站Yelp允許開發者無限制使用Elastic MapReduce,這樣開發者就不必為了測試某個瘋狂想法而走繁瑣的資源申請流程。Yelp能夠在一年前發現網站流量的移動化趨勢並及時開展移動業務都得益於此。

  資料的問題不都是規模

  總的來說,客戶的資料問題並不都是如何更低的成本儲存更多的資料,你不一定需要1PB的資料才能分析出誰是你社交遊戲的使用者。

  實際上,能夠無限制的儲存和處理資料本身會產生新的問題。公司希望能夠儲存所有產生的資料,這會導致複雜性增加。從亞馬遜的S3和DynamoDB服務到企業資料中心的物理伺服器,當資料在所有的庫中都堆積如山時,資料轉移和複用的難度也會變得很大。

  AWS新推出的資料管道服務(Data Pipeline Service)就是為了解決這個問題。管道非常複雜,從執行一個簡單的資料業務邏輯到在Elastic MapReduce上執行所有的批任務,資料管道服務的目的就是將資料的移動和處理自動化,使用者無需自己建立這些工作流程並手動執行。

aws_data_pipeline_console

AWS資料管道服務控制檯

  把大資料快遞給雲端計算

  人們有時候會質疑雲端計算與大資料任務之間的相關度,因為如果將企業內部系統產生的資料都上傳到雲端,由於受到網速限制,資料規模越大,上傳的時間就越長。為了解決這個問題,亞馬遜想盡各種辦法,包括與Aspera合作,甚至與那些研究在網際網路上快速轉移大檔案(Wood說見過700MB/秒的技術)的開源專案合作。此外,亞馬遜還取消了傳入資料的收費,並開啟了並行上傳功能。此外亞馬遜還與資料中心運營者合作啟動了直連專案(Direct Connect Program),為亞馬遜AWS設施提供專線連線。

  最後,如果客戶的資料量實在太大,網速又不夠快,還可以直接將存有資料的硬碟快遞給亞馬遜。

  協作是未來趨勢

  當資料遷移到雲端後,就開啟了一種全興的協作方式,研究人員,乃至整個行業都能訪問和分享這些過去因體量太大而無法移動的資料。一些產生海量資料的行業已經開始在雲端分享資料,例如AWS上已經託管的1000個基因組專案

dnanexus

  DNAnexus的雲架構

  遺傳學專案從雲端計算中受益匪淺,雖然AWS上的1000個基因組專案的資料庫只有200TB,但是單個專案很少有足夠的預算儲存這麼多資料並與同事分享。即使在資金充裕的醫藥領域,亞馬遜CTO Werner Vogels曾說過,醫藥企業正在使用雲端計算分享資料,企業們也無需花費時間和金錢"重新發明車輪"。

  不再需要超級計算機?

  Wood對亞馬遜高效能運算客戶在AWS平臺上的工作印象深刻——這些工作過去必須依賴超級計算機才能完成。這要感謝AWS的合作伙伴Cycle Computing,維斯康辛大學如今在AWS上能夠一週內完成過去需要116年的計算任務。AWS正在不斷增加例項的配置和效能,從最大的250GB記憶體到GPU叢集計算例項,AWS都將提供。出於成本的考慮,AWS目前僅在一部分市場提供叢集計算例項和Elastic MapReduce。

  如今很多執行資料密集型工作負載的企業都開始將目光投向雲端計算。大資料(尤其是Hadoop)和雲端計算年紀相仿,相輔相成,可謂天作之合。

相關文章