今天開始採用的十大大資料技術
大資料正在爆炸式增長,每天都有來自世界各地的公司湧現出新的專案。
好訊息是,所有技術都是開源的,可供您今天開始採用。
Hadoop
穩固,企業實力和其他一切的基礎。您需要YARN和HDFS以及Hadoop的基礎架構作為主要資料儲存並執行關鍵的大資料伺服器和應用程式
Spark
易於使用,支援所有重要的大資料語言(Scala,Python,Java,R),一個龐大的生態系統,快速增長,易於微縮/批處理/ SQL支援。這是另一個明智的選擇。
在這裡還是要推薦下我自己建的大資料學習交流群:529867072,群裡都是學大資料開發的,如果你正在學習大資料 ,小編歡迎你加入,大家都是軟體開發黨,不定期分享乾貨(只有大資料軟體開發相關的),包括我自己整理的一份最新的大資料進階資料和高階開發教程,歡迎進階中和進想深入大資料的小夥伴加入。
NiFi
- NSA的工具,允許從這麼多來源輕鬆地進行資料攝取,儲存和處理,只需極少的編碼和靈活的使用者介面。來自社交媒體,JMS,NoSQL,SQL,Rest / JSON Feeds,AMQP,SQS,FTP,Flume,ElasticSearch,S3,MongoDB,Splunk,Email,HBase,Hive,HDFS,Azure Event Hub,Kafka等的數十種來源。如果沒有您需要的源或接收器,那麼為您編寫自己的處理器是直接的Java程式碼。您工具箱中的另一個偉大的Apache專案。這是瑞士大資料工具。
Apache Hive 2.1
Apache Hive一直是Hadoop上的SQL解決方案。透過最新版本,效能和功能增強,Hive成為大資料SQL的解決方案。
Kafka
- 大資料系統之間非同步分散式訊息傳遞的選擇。它融入了大多數堆疊。從Spark到NiFi再到第三方工具,從Java到Scala,它是系統之間的一個很好的粘合劑。這需要在你的堆疊中。
Phoenix
HBase - 開源的BigTable,大量公司致力於HBase並使其規模龐大。NoSQL由HDFS支援,並與所有工具完美整合。在HBase上新增鳳凰城的建設正在使其成為NoSQL的首選。這為HBase新增了SQL,JDBC,OLTP和操作分析。
Zeppelin
- 易於整合的筆記本工具,用於處理Hive,Spark,SQL,Shell,Scala,Python以及大量其他資料探索和機器學習工具。它非常容易使用,也是探索和查詢資料的好方法。該工具正在獲得支援和功能。他們只需要提升他們的圖表和繪圖。
H2O
H2O填補了Spark的機器學習的空白,並且正常工作。它可以完成您所需的所有機器學習。
Apache Beam
Java中資料處理管道開發的統一框架。這允許您也支援Spark和Flink。其他框架將上線,您不必學習太多框架。
Stanford CoreNLP
自然語言處理是巨大的,只是增長更多。史丹佛大學正在繼續改進他們的框架。
顯然,有大量的大資料專案,因此您最好的選擇是從基礎分發開始,該分佈包含並測試專案的各個版本,並確保它們與安全性和管理平穩地協同工作。我建議使用Hortonworks Connected Data Platforms作為您的基礎。如果我們進入前20名,我會新增更多專案,特別是Storm, SOLR,Apache Oozie和Apache HAWQ。下面有很多很棒的技術,在大多數情況下,你沒有看到或知道像Apache Tez(雖然你需要在執行Hive時配置它),Apache Calcite,Apache Slider,Apache Zookeeper和 Livy。這些專案對於執行大資料基礎架構至關重要。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69917001/viewspace-2647708/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 技術的採用必須從頭開始
- 採用POI技術進行大資料匯入大資料
- 大資料技術之資料採集篇大資料
- 全球75%網站採用開源技術網站
- 開始技術管理
- 技術長征路的開始
- 採用 GraphQL 的技術經驗:營銷技術活動
- 大資料領域內的十大開源技術、十大公司大資料
- 今天開始學習 goGo
- 資料採集與融合技術作業一
- 資料採集與融合技術作業2
- 資料採集和融合技術作業1
- 資料採集和融合技術作業3
- 資料採集與技術融合作業3
- 資料採集與融合技術作業四
- 資料採集與融合技術作業4
- 臺積電於2016年10nm製程開始採用EUV技術
- 本次專案採用的技術架構架構
- 學技術,從性趣開始
- 今天開始學習PYTHONPython
- 從今天開始正式入住ITPUB
- 今天開始頭腦風暴
- 大資料技術是如何採集到我們的資訊的呢?大資料
- 黃東旭:開發者的技術無感化時代從 Serverless HTAP 資料庫開始Server資料庫
- [技術問題]MySQL資料庫的“十宗罪”的治理MySql資料庫
- [譯] 我們採用 GraphQL 技術的經驗:營銷技術活動
- 從零開始的個人技術部落格
- 開始編寫自己的技術部落格...
- 為什麼DRAM採用地址複用技術?為什麼SRAM不採用地址複用技術?
- 大資料技術在電商的應用大資料
- 資料庫管理員必讀的十本技術手冊資料庫
- 資料採集與融合技術實踐作業一
- 資料採集與融合技術實踐--作業三
- 資料採集與融合技術實踐作業三
- 資料採集與融合技術實踐作業四
- XMPP從今天開始強制加密加密
- 從今天開始,重新更新日誌
- UCloud優刻得率先採用區塊鏈技術構建可信資料流通平臺Cloud區塊鏈