今天參加了3個keynotes,42個session中的8個,和一大堆廠商討論技術,真是資訊大爆炸的一天。
Hadoop從誕生到今年已經有7個年頭,今年出現了很多新的變化:
1、Hadoop被公認是一套行業大資料標準開源軟體,在分散式環境下提供了海量資料的處理能力(Gartner)。幾乎所有主流廠商都圍繞Hadoop開發工具、開源軟體、商業化工具和技術服務。今年大型IT公司,如EMC、Microsoft、Intel、Teradata、Cisco都明顯增加了Hadoop方面的投入,Teradata還公開展示了一個一體機;另一方面創業型Hadoop公司層出不窮,這次看到的幾個是Sqrrl、Wandisco、GridGain、InMobi等等,都推出了開源的或者商用的軟體。
2、Hadoop生態系統豐富多彩,但是核心已經被Cloudera、HortonWorks牢牢掌控,基本上沒有撼動之可能。今年Hortonworks的宣傳是100% open source,Cloudera只好乾著急,誰叫他不開放Cloudera Enterprise Manager的原始碼呢?Hortonworks介紹Ambari的時候,會場至少5個Cloudera的工程師在仔細聆聽,有個小夥不停地在iPad上面速記,競爭可見一斑,個人估計,Cloudera早晚將Enterprise Manager開源。Hortonworks目前Ambari的committer是20+,Contributor 50+,後一個數字可能有些水,但是第一個是沒有問題的。目前每天有update,1.25版本比1.0x版本明顯好用了。其他大小廠商的生存之道就是搞外掛,如Wandisco、vmware、mellanox、GridGain,而且外掛均是不用修改核心的外掛 – 這些廠商是沒有能力動核心的,持續投入可能會有一些作用,如vmware,但是一線hadoop廠商是絕不會鬆手的。
3、Hadoop 2.0轉型基本上無可阻擋。Hortonworks的VPArun在介紹Tez的時候,給出了很多有趣的ppt,主旨就是一個:MapReduce已經是昨日黃花,Yarn將是未來平行計算的基礎設施。我自己還沒有使用Yarn,但是Hortonworks已經圍繞Yarn開發了很多工具,尤其是Tez,這個玩意可以提升查詢計劃的執行時間,PIG和Hive將被改寫並重灌上陣。Hortonworks雖然沒有搞出來Impala,但是從更底層的技術上包圍Impala,兩個老大的佈局和較量始終沒有停止。
4、SQL over Hadoop是一個重要的技術趨勢。去年Hadoop World時,MPP還吹噓自己如何牛X。但是Google釋出了Dremel和PowerDrill,EMC搞出來HAWQ,Cloudera搞出來Impala之後,所有的MPP都開始反思自己的技術路線。和Parccel技術人員(感覺是售前)討論了一下,她找出一張卡片說Parccel速度是Hive的100X,領先Impala10年。我感覺這個說話很快就會失靈,首先是Hive的優化一直沒有停止,Hortonworks搞出來Tez、Stinger(與Facebook合作)。雖然MPP領先Hadoop很多年,根據80:20原則,如果hadoopSQL只做使用者需要的20%特性,那麼這個差距最多2年,2年內,hadoopSQL將在部分領域超越MPP。MPP企業的出路就是學習HAWQ。列儲存也是推陳出新,近期主要是ORC(MS和Hortonworks合作)、Parquet(Twitter和Cloudera合作),有木有看出來兩個巨頭PK的身影?有木有看到抱團PK?這些技術在測試中均顯示出很大的優勢
5、IT和開源單位合作廣泛。這個不僅僅存在IT廠商和開源之間,實際上開源之間也在密切合作。不太清楚合作的內部資訊,但是基本上有兩種模式:產品/軟體交叉整合(含管理系統整合);合作開發和推廣。在技術方面就要求軟體有很好的架構,提供開放的介面,這一點Ambari的設計和俺對HT的要求一模一樣,可以俺未能如願,而Amabri已經開發了好幾個版本。
6、技術上看,大資料和雲的整合也是一個選項(注意,不是趨勢,而是選項)。今年新增了OpenStack相關議題,一些整合商和廠商也提出了雲上Hadoop的適用場景。這個並不是適用於所有人,但是部分使用者可以因此獲益。Netflix是一個典型的例子,他們的例項都在AWS上面,顯然他們的hadoop是基於虛擬機器的,和一個Netflix小夥子(日本人)交流,他們大約有2000個虛擬例項,基於EMR,並開發了Gennie管理系統。
要睡覺了,4小時後還有一場資訊大爆炸!貼一張在賓館小院乘涼,看到的小松鼠吧,也就距離我5米不到,真要讚一聲美帝的環境!
相關資訊: