大資料之城的發展

yanke_shanghai發表於2016-04-22
早在大資料概念出現以前就存在了各種各樣的關於數學、統計學、演算法、程式語言的研究、討論和實踐。這個時代,演算法以及各種數學知識作為建築的原料(比如鋼筋、磚塊),程式語言作為粘合劑(比如水泥)構成了一座座小房子(比如一個應用程式),形成了一小片一小片的村莊(比如一臺伺服器)。這個時代村與村之間還沒有高速公路(GFS, HDFS, Flume, Kafka等),只有一條泥濘不好走的土路(比如RPC),經濟模式也是小作坊式的經濟。一開始網際網路並不發達,網速也不快,這種老土的方式完全應付得來,可是隨著社交網路和智慧手機的興起,改變了這一切。網站流量成百上千倍的提高,資料變得更加多樣化,計算機硬體效能無法按照摩爾定律穩定的提升,小村莊,小作坊生產的模式註定受到限制。人們需要更強大的模式...

起開始,人們以為只要有一個強大的中央資料庫,也就是在所有的村莊之間建一座吞吐量巨大,並且相容幷蓄(非關係型,NoSQL)的倉庫,用來中轉每個村莊生產的大量異質貨物就能夠拉動經濟的增長。可是沒過多久,人們就意識到這是一個too young to simple的想法,因為這個倉庫的大小也總是有上限的。

之後MapReduce的概念最早由google提出,用來解決大規模叢集協同運算的問題,既然一臺計算機效能有限,何不將他們聯合起來?其野心勃勃,希望為每個村莊都建立一條”村村通“公路,也就是GFS了,就是Google分散式檔案系統的意思,將不同伺服器的硬碟連線起來,在外面看起來就好像一塊巨大的硬碟。然後構建與其上的MapReduce就是一座工廠排程每個村莊的勞動力和物資,讓這些村莊作為一個經濟體運轉起來。居民變得富裕起來了。
不過,富裕起來的只有”谷歌鎮“,世界的其他村鎮仍然過著原始的生活。這個時候雅虎和Apache的一幫人本著獨樂樂不如眾樂樂的精神,仿造google的思想,建立了HDFS(Hadoop 分散式檔案系統,對應GFS)、Hadoop(對應google的MapReduce),並公開了全部的藍圖,供全世界免費使用。這樣整個世界到處都建立起來了工廠,人們變得富裕起來了。這個時代,Hadoop叫做大資料基礎設施。

俗話說:飽暖思淫慾,工廠的領導不滿足於村鎮工廠的粗放型生產,也不再想僱用那麼多的勞動力,所以Mahout、HBase、Hive、Pig應運而生,他們都是數控機床,加工中心,只需要幾名操作手就能夠讓整個工廠運轉起來,自此人們安居樂業,豐衣足食。

當然,少數更有野心的資本家,不滿足於現在的生產力,為了追求更高的利潤(這是資本主義的本質),開發了效率更高的系統Spark,可以10倍於Hadoop的速度生產產品,新的時代才剛剛拉開序幕...

就是這樣,以上!

連結:

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/30316686/viewspace-2086160/,如需轉載,請註明出處,否則將追究法律責任。

相關文章