給 Java 開發者的 10 個大資料工具和框架

java妞妞發表於2017-05-18

當今IT開發人員面對的最大挑戰就是複雜性，硬體越來越複雜，OS越來越複雜，程式語言和API越來越複雜，我們構建的應用也越來越複雜。根據外媒的一項調查報告，中軟卓越專家列出了Java程式設計師在過去12個月內一直使用的一些工具或框架，或許會對你有意義。

先來看看大資料的概念。根據維基百科，大資料是龐大或複雜的資料集的廣義術語，因此傳統的資料處理程式不足以支援如此龐大的體量。

在許多情況下，使用SQL資料庫儲存/檢索資料都是很好的選擇。而現如今的很多情況下，它都不再能滿足我們的目的，這一切都取決於用例的變化。

現在來討論一些不同的非SQL儲存/處理資料工具，例如，NoSQL資料庫，全文搜尋引擎，實時流式處理，圖形資料庫等。

1、MongoDB——最受歡迎的，跨平臺的，面向文件的資料庫。

MongoDB是一個基於分散式檔案儲存的資料庫，使用C++語言編寫。旨在為Web應用提供可擴充套件的高效能資料儲存解決方案。應用效能高低依賴於資料庫效能，MongoDB則是非關聯式資料庫中功能最豐富，最像關聯式資料庫的，隨著MongDB 3.4版本釋出，其應用場景適用能力得到了進一步擴充。

MongoDB的核心優勢就是靈活的文件模型、高可用複製集、可擴充套件分片叢集。你可以試著從幾大方面瞭解MongoDB，如實時監控MongoDB工具、記憶體使用量和頁面錯誤、連線數、資料庫操作、複製集等。

2、Elasticsearch ——為雲構建的分散式RESTful搜尋引擎。

ElasticSearch是基於Lucene的搜尋伺服器。它提供了分散式多使用者能力的全文搜尋引擎，基於RESTful web介面。Elasticsearch是用Java開發的，並作為Apache許可條款下的開放原始碼釋出，是比較流行的企業級搜尋引擎。

ElasticSearch不僅是一個全文字搜尋引擎，還是一個分散式實時文件儲存，其中每個field均是被索引的資料且可被搜尋;也是一個帶實時分析功能的分散式搜尋引擎，並且能夠擴充套件至數以百計的伺服器儲存及處理PB級的資料。ElasticSearch在底層利用Lucene完成其索引功能，因此其許多基本概念源於Lucene。

3、Cassandra——開源分散式資料庫管理系統。

最初是由Facebook開發的，旨在處理許多商品伺服器上的大量資料，提供高可用性，沒有單點故障。

Apache Cassandra是一套開源分散式NoSQL資料庫系統。集Google BigTable的資料模型與Amazon Dynamo的完全分散式架構於一身。於2008開源，此後，由於Cassandra良好的可擴充套件性，被Digg、Twitter等Web 2.0網站所採納，成為了一種流行的分散式結構化資料儲存方案。

因Cassandra是用Java編寫的，所以理論上在具有JDK6及以上版本的機器中都可以執行，官方測試的JDK還有OpenJDK 及Sun的JDK。 Cassandra的操作命令，類似於我們平時操作的關聯式資料庫，對於熟悉MySQL的朋友來說，操作會很容易上手。

4、Redis ——開源(BSD許可)記憶體資料結構儲存，用作資料庫，快取和訊息代理。

Redis是一個開源的使用ANSI C語言編寫的、支援網路、可基於記憶體亦可持久化的日誌型、Key-Value資料庫，並提供多種語言的API。Redis 有三個主要使其有別於其它很多競爭對手的特點：Redis是完全在記憶體中儲存資料的資料庫，使用磁碟只是為了永續性目的; Redis相比許多鍵值資料儲存系統有相對豐富的資料型別; Redis可以將資料複製到任意數

5、Hazelcast ——基於Java的開源記憶體資料網格。

Hazelcast 是一種記憶體資料網格 in-memory data grid，提供Java程式設計師關鍵任務交易和萬億級記憶體應用。雖然Hazelcast沒有所謂的“Master”，但是仍然有一個Leader節點(the oldest member)，這個概念與ZooKeeper中的Leader類似，但是實現原理卻完全不同。同時，Hazelcast中的資料是分散式的，每一個member持有部分資料和相應的backup資料，這點也與ZooKeeper不同。

Hazelcast的應用便捷性深受開發者喜歡，但如果要投入使用，還需要慎重考慮。

6、Ehcache——廣泛使用的開源Java分散式快取。

主要面向通用快取、Java EE和輕量級容器。

EhCache 是一個純Java的程式內快取框架，具有快速、精幹等特點，是hibernate中預設的CacheProvider。主要特性有：快速簡單，具有多種快取策略;快取資料有兩級，記憶體和磁碟，因此無需擔心容量問題;快取資料會在虛擬機器重啟的過程中寫入磁碟;可以通過RMI、可插入API等方式進行分散式快取;具有快取和快取管理器的偵聽介面;支援多快取管理器例項，以及一個例項的多個快取區域;提供Hibernate的快取實現。

7、Hadoop ——用Java編寫的開源軟體框架。

用於分散式儲存，並對非常大的資料使用者可以在不瞭解分散式底層細節的情況下，開發分散式程式。充分利用叢集進行高速運算和儲存。Hadoop實現了一個分散式檔案系統(Hadoop Distributed File System)，簡稱HDFS。Hadoop的框架最核心的設計就是：HDFS和MapReduce。HDFS為海量的資料提供了儲存，MapReduce則為海量的資料提供了計算。

8、Solr ——開源企業搜尋平臺，用Java編寫，來自Apache Lucene專案。

Solr是一個獨立的企業級搜尋應用伺服器，它對外提供類似於Web-service的API介面。使用者可以通過http請求，向搜尋引擎伺服器提交一定格式的XML檔案，生成索引;也可以通過Http Get操作提出查詢請求，並得到XML格式的返回結果。

與ElasticSearch一樣，同樣是基於Lucene，但它對其進行了擴充套件，提供了比Lucene更為豐富的查詢語言，同時實現了可配置、可擴充套件並對查詢效能進行了優化。

9、Spark ——Apache Software Foundation中最活躍的專案，是一個開源叢集計算框架。

Spark 是一種與 Hadoop 相似的開源叢集計算環境，但是兩者之間還存在一些不同之處，這些不同之處使 Spark 在某些工作負載方面表現得更加優越，換句話說，Spark 啟用了記憶體分佈資料集，除了能夠提供互動式查詢外，它還可以優化迭代工作負載。

Spark 是在 Scala 語言中實現的，它將 Scala 用作其應用程式框架。與 Hadoop 不同，Spark 和 Scala 能夠緊密整合，其中的 Scala 可以像操作本地集合物件一樣輕鬆地

10、Memcached ——通用分散式記憶體快取系統。

Memcached是一套分散式快取系統，當初是Danga Interactive為了LiveJournal所發展的，但被許多軟體(如MediaWiki)所使用。Memcached作為高速執行的分散式快取伺服器，具有以下的特點：協議簡單，基於libevent的事件處理，內建記憶體儲存方式。

Java 開發者必備的工具和框架
2022-03-30
Java框架
Java程式設計師必備的10個大資料框架！
2021-12-06
Java程式設計師大資料框架
22個大資料開發處理框架平臺和工具
2019-04-21
大資料框架
推薦給開發者的11個PHP框架
2015-03-12
PHP框架
7 個給新手 Java 開發者的提示
2019-12-08
Java
Quercus:將強大的Java帶給PHP開發者
2010-08-27
JavaPHP
推薦給開發者的20個優秀PHP框架
2015-01-15
PHP框架
67 個拯救前端開發者的工具、庫和資源
2017-09-11
前端
為什麼學習大資料，大資料專家寫給大資料分析學習者的10個理由
2019-01-13
大資料
Java程式設計師使用的20幾個大資料工具
2016-01-28
Java程式設計師大資料
8個超實用的Java測試工具和框架
2015-06-23
Java框架
10個針對企業的免費大資料分析工具
2015-05-05
大資料
最佳的7個大資料分析工具
2022-07-15
大資料
Java軟體開發者，如何學習大資料？
2018-09-13
Java大資料
Java中大資料生態和4個工具介紹
2024-03-09
Java大資料
Java架構師與開發者提高效率的10個工具
2015-01-28
Java架構
給大資料入行者的，建議和書單
2017-03-01
大資料
給 JavaScript 開發者的十款有用的工具
2014-08-13
JavaScript
寫給開發者：記錄日誌的10個建議
2013-11-26
讓開發者高效程式設計的10個新框架
2013-05-16
程式設計框架
Web開發者不能錯過的10個JavaScript工具
2013-09-05
WebJavaScript
為開發者準備的 10 個新鮮的前端框架
2014-07-22
前端框架
每個Java開發者都應該知道的5個JDK工具
2014-12-18
JavaJDK
6個大資料處理分析的最好工具
2017-08-06
大資料
Google開發者大會：為中國開發者和消費者推出新的工具
2018-09-20
Go
給新手 Java 開發者的 7 點提示
2019-11-28
Java
Spring 框架：Java 開發者的春天
2024-10-29
Spring框架Java
為鏈上的智慧合同開發者提供全面的工具和資料
2022-03-15
回顧 Web 開發者熟悉的 10 個經典開源專案和工具
2017-08-16
Web
Java 開發者最容易犯的10個錯誤
2019-01-06
Java
每個 Java 開發者應該知道(並愛上)的 8 個工具
2016-12-22
Java
大資料框架圖
2016-07-18
大資料框架
三個大資料處理框架：Storm，Spark和Samza介紹比較
2017-11-15
大資料框架ORMSpark
大資料思維10個原理
2016-09-10
大資料
為鏈上的智慧合約開發者提供全面的工具和資料
2021-12-11
寫給精明Java開發者的測試技巧
2015-07-29
Java
開發者需知的10類工具
2013-05-11
Web開發者不容錯過的10個HTML5工具
2015-08-15
WebHTML