微軟釋出Azure資料倉儲,對抗AWS Redshift

1013301358發表於2015-05-04
很多在微軟資料庫和雲生態系統裡工作的資料專業人士一直都迫不及待地想知道,微軟什麼時候會推出雲資料倉儲服務與亞馬遜的Redshift競爭。在微軟Build大會的開幕演講中,執行副總裁Scott Guthrie宣佈推出“Azure資料倉儲”( Azure Data Warehouse)——名字非常地恰到好處。


在釋出Azure資料倉儲的同時,還傳出另外兩個服務的訊息:Azure Data Lake和Azure SQL Database彈性資料庫。儘管這兩個服務看起來只是來湊湊熱鬧,但其實三個產品之間有著相輔相成的關係。


擴充套件易如反掌


首先要說明一下,Azure資料倉儲不僅僅是用來對付Redshift產品的,Azure資料倉儲也是對Redshift經濟模式的挑戰。在Redshift裡,使用者擴充套件資料倉儲時,計算資源和儲存的增加是以固定的比例鎖在一起的。而在Asure資料倉儲(英文縮寫為ADW)裡,計算資源和儲存是脫節的,使用者可以只縮放其中之一。


ADW的經濟模式可以為客戶省錢。這種模式可以在需要更多的儲存時消除多餘的計算資源的配置(反之亦然),而且,在ADW模型裡,沒用到的計算資源可以被暫停,需要時再恢復。如此,計算資源費用帳單可以自成一項,這與Redshift模式形成強烈對比,在Redshift模式裡,使用者要為節點群集裡的所有虛擬機器買全天候的單。


ADW之所以能將儲存獨立出來是因為用了Azure Storage Blobs(Azure Storage Blob是Azure的雲端儲存服務,類似於亞馬遜S3),而不是用虛擬機器上的本地驅動。這樣做可能導致效能上的差異,,對Azure資料倉儲不利。但筆者本週初聽資料平臺集團副總裁T.K. Ranga Rengarajan和資料庫系統集團總經理Shawn Bice介紹有關服務時,他們一口保證ADW效能優良。我要靠那些喜歡折騰評估的朋友幫著做做這方面事。


那Hadoop呢?


ADW是千兆兆位元組級別的服務——但談論資料量這碼事時,不是應該講到Hadoop嗎?別慌,會的。首先,ADW用的技術是微軟用在旗下分析平臺系統(Analytics Platform System,縮寫為APS——是以前的SQL Server並行資料倉儲)的技術,其中含一項名為PolyBase的技術,筆者以前寫過博文介紹過PolyBase。


APS和ADW透過PolyBase可以直接查詢在Hadoop叢集上的資料,或是可以將工作負載委託給Hadoop。這樣一來,Hadoop的資料對於資料倉儲而言就看起來好像是本地資料一樣,而開發人員和資料庫管理人員可以使用現有的技能對其進行查詢。PolyBase透過這種方式可以和Hadoop整合在一起,而不用理會是微軟雲中的HDInsight叢集還是在Azure虛擬機器上或本地執行的Hortonworks或Cloudera叢集。


還有更厲害的——Azure Data Lake


微軟在宣佈ADW的同時還推出了一款新的Azure儲存,名為Azure Data Lake。它可處理流資料(低延遲、高容量、更新頻繁一類的資料)、可進行地理分佈處理、可利用資料的本地性,並可以在千兆兆位元組的級別上對各個檔案根據大小分組。


Azure Data Lake當然地可以透過Azure儲存API訪問,而且還與Hadoop分散式檔案系統(HDFS)相容。即是說,Hadoop叢集可以使用Azure Data Lake,而Azure Data Lake也可以使用ADW/PolyBase。


回頭再看一下OLTP這一塊


資料倉儲和Hadoop叢集牛得很,但我們也不要忘了,生產應用程式和資料庫生成交易資料,分析工具則需要以此作參考。在微軟雲裡,我們則需要用到Azure SQL資料庫(提一下,ADW的基礎用到Azure SQL資料庫12版的技術)。


SQL資料庫領域有什麼新東西?容量安排上有了新的選擇,就是這東西。儲存和計算資源扣在一起會在資料倉儲領域導致效率低,同樣,將規模和資料庫或資料庫分割槽扣在一起也會導致OLTP(聯機事務處理)的效率變低。其原因是:資料庫容量單位的生長或收縮彼此之間相對靈活,所以,在總體上進行容量配置就具有更大的吸引力。


Azure SQL DB彈性資料庫(Azure SQL DB Elastic Databases)能夠利用這種以總體為導向的容量配置,對亞馬遜的關聯式資料庫服務(RDS)是另一個經濟模式上的挑戰,據我所知,RDS尚無一個可比選項。


客戶是贏家


競爭是好事。可以這樣說,假若不是亞馬遜先用Redshift攪了微軟的局,微軟肯定不會推出ADW的。新的計費法可能是被AWS產品裡的點例項模式催化出來的——至少部分受到點例項模式的影響。微軟現在做出響應,不僅僅是做到AWS的同等水平而已,而是多走了重要的幾步。


亞馬遜將如何應對?亞馬遜已經拿出一個機器學習產品對抗Azure。我猜測亞馬遜會在資料倉儲、儲存和OLTP方面有所動作。而且我們不要忘了,谷歌攜Hadoop、BigQuery和旗下的雲端儲存也是玩家之一。


創新成果令客戶受益,客戶只需對市場上的產品心中有數就能獲益。雲供應商可以對其助一臂之力,需要做的是細心清楚地解釋自己的新產品。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29874604/viewspace-1621812/,如需轉載,請註明出處,否則將追究法律責任。

相關文章