大資料學習,大資料發展趨勢和Spark介紹
Spark介紹
大資料是隨著計算機技術、通訊技術、網際網路技術的發展而產生的一種現象。
以前我們沒有實現人和人之間的連線,產生的資料沒有現在這麼多;或者說沒有把產生的資料記錄下來;即使記錄下來,我們也沒有很好的工具對這些資料進行處理、分析和挖掘。而隨著大資料技術的發展,我們開始逐漸地擁有這種能力,來發掘資料中的價值。
大資料技術在 2012年之前是以MapReduce為代表的批處理技術;2013年之後,則是以Spark為代表的大資料處理引擎;展望未來,大家越來越關注人工智慧和大資料的結合,希望透過人工智慧技術從大資料中挖掘更多的價值。近年來人工智慧的爆發,也正是得益於大資料技術在儲存、算力和演算法上的飛速發展,所以人工智慧和大資料是密不可分的,離開大資料,人工智慧也是無源之水,無木之本。我們可以打個比方,如果把人工智慧比喻成火箭,那麼大資料技術就是推動這艘火箭的燃料。
以上我們從宏觀的角度來看大資料技術的發展趨勢,下面讓我們以一個技術人員的角度,來看看當前大多數企業中所使用的大資料平臺的系統架構。
首先企業會從各個渠道收集資料,這些資料透過訊息訂閱系統,一部分會經過一些流失的計算和處理,支援線上和實時的分析;另一部分資料則進入到相對靜態的資料湖中,中間會涉及到資料的清洗、過濾、再加工等操作,另外還可以對資料進行結構調整來最佳化業務,如合併大量小檔案等等。資料湖中這些資料可以用來支援商業分析報表、資料探勘、人工智慧等應用。事實上 Spark是當前使用最普遍的大資料計算引擎。在各個大企業的業務系統中,都把Spark作為資料處理和分析的核心元件。簡單來說,原始的資料通常需要利用Spark來進行一系列的處理,才能最終應用於人工智慧等應用,可以說Spark已經成為大資料處理領域的一個實施標準。所以在當前大資料+AI的時代,正是因為有了像Spark這樣的大資料技術,才使得企業能夠更快、更好地搭建業務系統,服務於所需的應用,從而充分的結合大資料和AI的能力,進一步發掘資料中的價值。
接下來讓我們一起了解一下 Spark。作為大資料技術中的明星,Spark它是一種通用的高效能的叢集計算系統。它起源於UC Berkeley AMP Lab一個研究專案,於2010年開源,2013年加入Apache基金會,如今Spark個在全球已經擁有50萬的Meetup成員,Spark的開源社群有1300+開發者,Spark也被廣泛的使用於企業和高校中。
那麼究竟是什麼讓 Spark能得到大家的青睞呢?第一點原因就是它的高效能,比傳統MapReduce要快一百倍以上,讓Spark這個專案在一開始就非常的引人注目。其次,是它的通用性,Spark讓你可以在一個Pipline裡面編寫SQL、Streaming、ML、Graph等多種應用,而在Spark號之前是沒有一個系統能夠做到這一點的。第三點,Spark支援Java、Scala、Python、R、SQL等多種API,而且設計得非常簡潔易用。不光如此,Spark還在其周圍構建豐富的生態,他能夠處理多種資料來源,如HBase、Kafka、MySQL等等,以及多種資料格式,如Parquet、ORC、CSV、JSON等等。此外還支援多種模式的部署,Yarn、Mesos、Kubernetes(也簡稱為K8S),另外Spark也提供獨立的Standalone部署模式。
透過上面的內容我們大概瞭解了大資料發展趨勢和 Spark的特點,是否意猶未盡呢,想要了解更多大資料、Spark的資訊,請登入華為雲學院( https://edu.huaweicloud.com/ )學習相關課程《華為雲資料湖探索服務》、《大資料入門與應用》。。。還有更多精彩課程等你來學習!
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31556022/viewspace-2216654/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 大資料的發展趨勢大資料
- 大資料發展趨勢在哪裡?大資料
- 2018年大資料和人工智慧的五大發展趨勢大資料人工智慧
- 雲端計算和大資料未來發展趨勢分析大資料
- 2021年大資料和分析4大趨勢大資料
- 多智時代,大資料發展趨勢預測大資料
- 值得了解的十大資料發展趨勢大資料
- 大資料是什麼?大資料的趨勢?大資料
- 大資料科學新發展展望:不得不知的四大趨勢大資料資料科學
- 餘老師帶你學習大資料-Spark快速大資料處理第六章第一節Spark總體介紹大資料Spark
- 大資料學習—Spark核心概念RDD大資料Spark
- BigData:值得了解的十大資料發展趨勢大資料
- 大資料和Hadoop平臺介紹大資料Hadoop
- 大資料技術趨勢大資料
- 2019年資料時代,你瞭解大資料未來的發展趨勢嗎?大資料
- 大資料學習資料大資料
- 大資料基礎學習-9.Spark2.1.1大資料Spark
- [大資料][機器學習]之Model Card(模型卡片)介紹大資料機器學習模型
- 資料管理治理的發展趨勢
- 《Spark 3.0大資料分析與挖掘:基於機器學習》簡介Spark大資料機器學習
- 大資料崗位介紹-引子大資料
- 大資料學習大資料
- IPIDEA研究,大資料時代未來的發展趨勢是什麼?Idea大資料
- 2019中國大資料產業佈局及發展趨勢預測大資料產業
- 大資料學習方法,學大資料需要的基礎和路線大資料
- 大資料學習大綱,大資料應該怎麼學大資料
- 大資料分析三大實用工具介紹!大資料
- 大資料:不容忽視的十大趨勢大資料
- 2022年資料市場的演變:大資料趨勢大資料
- 大資料 Hadoop介紹、配置與使用大資料Hadoop
- 四種大資料分析方法介紹!大資料
- 《Hadoop+Spark大資料分析實戰》簡介HadoopSpark大資料
- 小白如何學習大資料開發,大資料學習路線是怎樣的?大資料
- 大資料如何學習,大資料工程師學習經驗分享大資料工程師
- 通證、區塊鏈、大資料結合將是未來發展趨勢區塊鏈大資料
- 天府大資料:2018全球大資料發展分析報告大資料
- 大資料系列 1:大資料技術發展歷程大資料
- 1.1 大資料簡介-hadoop-最全最完整的保姆級的java大資料學習資料大資料HadoopJava