大資料系列 1:大資料技術發展歷程

資料工程師金牛發表於2018-12-30

2014 年,馬雲提出,“人類正在從 IT 時代走向 DT 時代”。如果說在 IT 時代是以自我控制、自我管理為主,那麼到了 DT(Data Technology) 時代,則是以服務大眾、激發生產力為主。

在 DT 時代,人們比以往任何時候更能收集到更豐富的資料。資料正在變革我們的生活,催生了大資料行業的發展。

百度百科中這樣定義大資料(big data),指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。

在這裡我還是要推薦下我自己建的大資料學習交流qq裙: 957205962, 裙 裡都是學大資料開發的,如果你正在學習大資料 ,小編歡迎你加入,大家都是軟體開發黨,不定期分享乾貨(只有大資料開發相關的),包括我自己整理的一份2018最新的大資料進階資料和高階開發教程,歡迎進階中和進想深入大資料的小夥伴

這個新處理模式,就是大資料技術了。下圖是我整理的主要大資料技術發展歷程。

在大資料時代,傳統的軟體已經無法處理和挖掘大量資料中的資訊。最重要的變革著就是谷歌的“三架馬車”。谷歌在 2004 年左右相繼釋出谷歌分散式檔案系統 GFS、大資料分散式計算框架 Mapreduce、大資料 Nosql 資料庫 BigTable ,這三篇論文奠定了大資料技術的基石。變革總是像谷歌那樣的大公司主導的,在當時大部分公司還在致力於提高單機效能時,谷歌已經開始設想把資料儲存、計算分給大量的廉價計算機去執行。

受 Google 的論文啟發,2004 年 7 月,Doug Cutting 和 Mike Cafarella 在 Nutch 中實現了類似 GFS 的功能,即後來 HDFS 的前身。後來 2005 年 2 月,Mike Cafarella在 Nutch 中實現了 MapReduce 的最初版本。到 2006 年 Hadoop 從 Nutch 中分離出來並啟動獨立專案。Hadoop 的開源推動了後來大資料產業的蓬勃發展,帶了了一場深刻的技術革命

接下來,大資料相關技術不斷髮展,開源的做法讓大資料生態逐漸形成。由於 Mapredece 程式設計繁瑣,Facebook 貢獻 Hive,sql 語法為資料分析、資料探勘提供巨大幫助。第一個運營 Hadoop 的商業化公司 Cloudera 也在 2008 年成立。

由於記憶體硬體已經突破成本限制,2014 年 Spark 逐漸替代 Mapreduce 的地位,受到業界追捧。Spark 在記憶體內執行程式的運算速度能做到比 Hadoop MapReduce 的運算速度快 100 倍,並且其執行方式適合機器學習任務。Spark 在 2009 年誕生於 UC Berkeley AMPLab, 2010 年開源,2013 年貢獻到 Apache 基金會。

Spark 和 Mapreduce 都專注於離線計算,通常時間是幾十分鐘甚至更長時間,為批處理程式。由於實時計算的需求,流式計算引擎開始出現,包括 Storm、Flink、Spark Streaming。

大資料儲存和處理技術的發展同時也帶動了資料分析、機器學習的蓬勃發展,也促使了新興產業的不斷湧現。大資料技術是基石,人工智慧的落地是下一個的風口。身處在網際網路行業中,感覺到技術進步很快,要略去浮躁,把握住變革的到來。

在這裡我還是要推薦下我自己建的大資料學習交流qq裙: 957205962, 裙 裡都是學大資料開發的,如果你正在學習大資料 ,小編歡迎你加入,大家都是軟體開發黨,不定期分享乾貨(只有大資料開發相關的),包括我自己整理的一份2018最新的大資料進階資料和高階開發教程,歡迎進階中和進想深入大資料的小夥伴

相關文章