大資料data開發有哪些好的輔助工具?
作為一個程式設計師開發工具好比是人的手和腳,只有把這些開發工具用好,才能做好一個產品的需求。大多使用SQL資料庫儲存/檢索資料,如今很多情況下,它都不再能滿足我們的需求。下面小編就介紹一些大資料data開發常用的輔助工具。
開源企業搜尋平臺:Solr
用Java編寫,來自Apache Lucene專案。Solr是一個獨立的企業級搜尋應用伺服器,它對外提供類似於Web-service的API介面。使用者可以透過http請求,向搜尋引擎伺服器提交一定格式的XML檔案,生成索引;也可以透過Http Get操作提出查詢請求,並得到XML格式的返回結果。
在這裡還是要推薦下我自己建的大資料學習交流群:529867072,群裡都是學大資料開發的,如果你正在學大資料 ,小編歡迎你加入,大家都是軟體開發黨,不定期分享乾貨(只有大資料軟體開發相關的),包括我自己整理的一份最新的大資料進階資料和高階開發教程,歡迎進階中和進想深入大資料的小夥伴加入。
與ElasticSearch一樣,同樣是基於Lucene,但它對其進行了擴充套件,提供了比Lucene更為豐富的查詢語言,同時實現了可配置、可擴充套件並對查詢效能進行了最佳化。
雲構建的分散式RESTful搜尋引擎:Elasticsearch
ElasticSearch是基於Lucene的搜尋伺服器。它提供了分散式多使用者能力的全文搜尋引擎,基於RESTful web介面。Elasticsearch是用Java開發的,並作為Apache許可條款下的開放原始碼釋出,是比較流行的企業級搜尋引擎。
ElasticSearch不僅是一個全文字搜尋引擎,還是一個分散式實時文件儲存,其中每個field均是被索引的資料且可被搜尋;也是一個帶實時分析功能的分散式搜尋引擎,並且能夠擴充套件至數以百計的伺服器儲存及處理PB級的資料。ElasticSearch在底層利用Lucene完成其索引功能,因此其許多基本概念源於Lucene。
開源分散式資料庫管理系統:Cassandra—
最初是由Facebook開發的,旨在處理許多商品伺服器上的大量資料,提供高可用性,沒有單點故障。
開源分散式NoSQL資料庫系統:Apache Cassandra
集Google BigTable的資料模型與Amazon Dynamo的完全分散式架構於一身。於2008開源,此後,由於Cassandra良好的可擴充套件性,被Digg、Twitter等Web 2.0網站所採納,成為了一種流行的分散式結構化資料儲存方案。
因Cassandra是用Java編寫的,所以理論上在具有JDK6及以上版本的機器中都可以執行,官方測試的JDK還有OpenJDK 及Sun的JDK。 Cassandra的操作命令,類似於我們平時操作的關聯式資料庫,對於熟悉MySQL的朋友來說,操作會很容易上手。
跨平臺的,面向文件的資料庫:MongoDB
MongoDB是一個基於分散式檔案儲存的資料庫,使用C++語言編寫。旨在為Web應用提供可擴充套件的高效能資料儲存解決方案。應用效能高低依賴於資料庫效能,MongoDB則是非關聯式資料庫功能最豐富,最像關聯式資料庫的,隨著MongDB 3.4版本釋出,其應用場景適用能力得到了進一步擴充。
MongoDB的核心優勢就是靈活的文件模型、高可用複製集、可擴充套件分片叢集。你可以試著從幾大方面瞭解MongoDB,如實時監控MongoDB工具、記憶體使用量和頁面錯誤、連線數、資料庫操作、複製集等。
開源(BSD許可)記憶體資料結構儲存:Redis 用作資料庫,快取和訊息代理。
Redis是一個開源的使用ANSI C語言編寫的、支援網路、可基於記憶體亦可持久化的日誌型、Key-Value資料庫,並提供多種語言的API。Redis 有三個主要使其有別於其它很多競爭對手的特點:Redis是完全在記憶體中儲存資料的資料庫,使用磁碟只是為了永續性目的; Redis相比許多鍵值資料儲存系統有相對豐富的資料型別; Redis可以將資料複製到任意數量的從伺服器中。
基於Java的開源記憶體資料網格:Hazelcast
Hazelcast 是一種記憶體資料網格 in-memory data grid,提供Java程式設計師關鍵任務交易和萬億級記憶體應用。雖然Hazelcast沒有所謂的‘Master’,但是仍然有一個Leader節點(the oldest member),這個概念與ZooKeeper中的Leader類似,但是實現原理卻完全不同。同時,Hazelcast中的資料是分散式的,每一個member持有部分資料和相應的backup資料,這點也與ZooKeeper不同。
Hazelcast的應用便捷性深受開發者喜歡,但如果要投入使用,還需要慎重考慮。
廣泛使用的開源Java分散式快取:EHCache主要面向通用快取、Java EE和輕量級容器。
EhCache 是一個純Java的程式內快取框架,具有快速、精幹等特點,是Hibernate中預設的CacheProvider。主要特性有:快速簡單,具有多種快取策略;快取資料有兩級,記憶體和磁碟,因此無需擔心容量問題;快取資料會在虛擬機器重啟的過程中寫入磁碟;可以透過RMI、可插入API等方式進行分散式快取;具有快取和快取管理器的偵聽介面;支援多快取管理器例項,以及一個例項的多個快取區域;提供Hibernate的快取實現。
用Java編寫的開源軟體框架,用於分散式儲存,並對非常大的資料集進行分散式處理:Hadoop
使用者可以在不瞭解分散式底層細節的情況下,開發分散式程式。充分利用叢集進行高速運算和儲存。Hadoop實現了一個分散式檔案系統(Hadoop Distributed File System),簡稱HDFS。Hadoop的框架最核心的設計就是:HDFS和MapReduce。HDFS為海量的資料提供了儲存,MapReduce則為海量的資料提供了計算。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69917001/viewspace-2645604/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 大資料開發有哪些難點?大資料
- 大資料平臺開發公司有哪些?大資料
- 有哪些大資料處理工具?大資料
- 大資料視覺化分析工具常用的有哪些?大資料視覺化
- 學大資料開發要掌握的基礎知識有哪些?大資料
- 學javascript有哪些開發工具JavaScript
- 大資料開發好還是大資料分析好?哪個薪資高?大資料
- 低程式碼開發有哪些好處?
- 好程式設計師大資料培訓分享大資料就業方向有哪些?程式設計師大資料就業
- Python有哪些資料探勘工具?五大類Python
- go語言開發有哪些工具Go
- 大資料開發需要學哪些專案 從哪裡入手比較好大資料
- 大資料技術有哪些大資料
- 大資料分析模型有哪些大資料模型
- 大資料分析的誤區有哪些大資料
- 大資料的就業方向有哪些?大資料就業
- 大資料分析的型別有哪些大資料型別
- 好開發的工具
- 學Java有哪些好的Java輔助工具?Java
- 有哪些值得推薦的Python開發工具Python
- 大資料分析工具有哪些特性大資料
- 開發微信小程式分銷商城的好處有哪些?微信小程式
- 大資料開發有那些難點?大資料
- 大資料探勘有哪些技術大資料
- 大資料渠道有哪些優勢大資料
- 有哪些開源的 BI 工具
- 大資料分析系統的元件有哪些大資料元件
- 大資料技術的特點有哪些大資料
- 資料視覺化工具的意義有哪些視覺化
- 大資料開發平臺(Data Platform)在有讚的最佳實踐大資料Platform
- python有哪些好的學習資料或者部落格?Python
- 【求助】有哪些比較成熟的開源資料治理工具/平臺
- 大資料資訊保安問題有哪些大資料
- 大資料主要就業方向有哪些?大資料就業
- 大資料有哪些作用?_光點科技大資料
- 大資料處理系統有哪些大資料
- 大資料相關技術有哪些?大資料
- 企業使用雲資料庫有哪些好處?這三大好處你需要知道!資料庫