今天開始採用的十大大資料技術

大資料學習發表於2019-06-14

大資料正在爆炸式增長,每天都有來自世界各地的公司湧現出新的專案。

好訊息是,所有技術都是開源的,可供您今天開始採用。

Hadoop

穩固,企業實力和其他一切的基礎。您需要YARN和HDFS以及Hadoop的基礎架構作為主要資料儲存並執行關鍵的大資料伺服器和應用程式

今天開始採用的十大大資料技術

Spark

易於使用,支援所有重要的大資料語言(Scala,Python,Java,R),一個龐大的生態系統,快速增長,易於微縮/批處理/ SQL支援。這是另一個明智的選擇。

在這裡還是要推薦下我自己建的大資料學習交流群:529867072,群裡都是學大資料開發的,如果你正在學習大資料 ,小編歡迎你加入,大家都是軟體開發黨,不定期分享乾貨(只有大資料軟體開發相關的),包括我自己整理的一份最新的大資料進階資料和高階開發教程,歡迎進階中和進想深入大資料的小夥伴加入。

NiFi

- NSA的工具,允許從這麼多來源輕鬆地進行資料攝取,儲存和處理,只需極少的編碼和靈活的使用者介面。來自社交媒體,JMS,NoSQL,SQL,Rest / JSON Feeds,AMQP,SQS,FTP,Flume,ElasticSearch,S3,MongoDB,Splunk,Email,HBase,Hive,HDFS,Azure Event Hub,Kafka等的數十種來源。如果沒有您需要的源或接收器,那麼為您編寫自己的處理器是直接的Java程式碼。您工具箱中的另一個偉大的Apache專案。這是瑞士大資料工具。

Apache Hive 2.1

Apache Hive一直是Hadoop上的SQL解決方案。透過最新版本,效能和功能增強,Hive成為大資料SQL的解決方案。

Kafka

- 大資料系統之間非同步分散式訊息傳遞的選擇。它融入了大多數堆疊。從Spark到NiFi再到第三方工具,從Java到Scala,它是系統之間的一個很好的粘合劑。這需要在你的堆疊中。

Phoenix

HBase - 開源的BigTable,大量公司致力於HBase並使其規模龐大。NoSQL由HDFS支援,並與所有工具完美整合。在HBase上新增鳳凰城的建設正在使其成為NoSQL的首選。這為HBase新增了SQL,JDBC,OLTP和操作分析。

Zeppelin

- 易於整合的筆記本工具,用於處理Hive,Spark,SQL,Shell,Scala,Python以及大量其他資料探索和機器學習工具。它非常容易使用,也是探索和查詢資料的好方法。該工具正在獲得支援和功能。他們只需要提升他們的圖表和繪圖。

H2O

H2O填補了Spark的機器學習的空白,並且正常工作。它可以完成您所需的所有機器學習。

Apache Beam

Java中資料處理管道開發的統一框架。這允許您也支援Spark和Flink。其他框架將上線,您不必學習太多框架。

Stanford CoreNLP

自然語言處理是巨大的,只是增長更多。史丹佛大學正在繼續改進他們的框架。

顯然,有大量的大資料專案,因此您最好的選擇是從基礎分發開始,該分佈包含並測試專案的各個版本,並確保它們與安全性和管理平穩地協同工作。我建議使用Hortonworks Connected Data Platforms作為您的基礎。如果我們進入前20名,我會新增更多專案,特別是Storm, SOLR,Apache Oozie和Apache HAWQ。下面有很多很棒的技術,在大多數情況下,你沒有看到或知道像Apache Tez(雖然你需要在執行Hive時配置它),Apache Calcite,Apache Slider,Apache Zookeeper和 Livy。這些專案對於執行大資料基礎架構至關重要。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69917001/viewspace-2647708/,如需轉載,請註明出處,否則將追究法律責任。

相關文章