DKHadoop大資料平臺架構詳解

adnb34g發表於2018-10-17


大資料的時代已經來了,資訊的爆炸式增長使得越來越多的行業面臨這大量資料需要儲存和分析的挑戰。 Hadoop 作為一個開源的分散式並行處理平臺,以其高擴充、高效率、高可靠等優點越來越受到歡迎。這同時也帶動了 hadoop 商業版的發行。這裡就通過大快 DKhadoop 為大家詳細介紹一下 hadoop 大資料平臺架構內容。

目前國內的商業發行版 hadoop 除了大快 DKhadoop 以外還有像華為雲等。雖然發行方不同,但在平臺架構上相似,這裡就以我比較熟悉的 dkhadoop 來介紹。

 

1、 大快 Dkhadoop 可以說是 整合了整個 HADOOP生態系統的全部元件,並 對其進行了 深度優化,重新編譯為一個完整的更高效能的大資料通用計算平臺,實現了各部件的有機協調。因此 DKH相比開源的大資料平臺,在計算效能上有了 非常高的 提升。 這一點也是個人覺得 dkhadoop比我之前使用的另外一個商業發行版的要好的,國內的大部分商業發行版hadoop可以說都是二次包裝,dkhadoop做的好的就是敢在原生態的基礎上進行開發。

2、 大快 DKhadoop中介軟體技術把大資料叢集配置簡化成三種節點,這樣不僅簡化了叢集的管理運維,還增強了叢集的可用性和穩定性。Dkhadoop中介軟體整合了apache的很多元件 包含了從檔案、 SQL 、日誌、訊息到爬蟲和流資料以及異構資料的支援;整合了大快的壓縮演算法,和資料同步分發技術,實現了資料的匯入和減少調動的同時實現,對於有實時資料要求的專案具有不可替代的技術優勢。

3 、大快 DKhadoop 商業發行版還是保持了開源系統的優點的,可以與開源系統 100% 相容。對於那些基於開源平臺開發的大資料應用並不需要經過改動同樣可以在 dkhadoop 上高效執行。

4 DKhadoop 一體化開發框架提供了大資料、搜尋、自然語言處理和人工智慧開發中常用的二十多個類,總計一百餘種方法,實現了開發效率的大幅提升。 DK.HADOOP 整合整合了 NOSQL 資料庫,簡化了檔案系統與非關聯式資料庫之間的程式設計; DK.HADOOP 改進了叢集同步系統,使得 HADOOP 的資料處理更加高效。

5、 DK hadoop SQL版本,還提供了分散式MySQL的整合,傳統的資訊系統,可無縫的實現面向大資料和分散式的跨越。

6 ES :快遞 DKhadoop 的搜尋系統是在開源 ES 系統上二次開發的,支援完成的全文搜尋。 整合了對中文搜尋的有效支援以及對大快資料同步技術的支援後的高效能版本, DK.ES DKH 的核心元件之一,僅隨 DKH 整合整合了對中文搜尋的有效支援以及對大快資料同步技術的支援後的高效能版本, DK.ES DK hadoop 的核心元件之一

7 、漢語言處理元件:大快的漢語言處理是目前國內使用率最高的開源自然語言處理開發包。

簡單的就介紹這些了吧,想要進一步瞭解的可以搜尋查詢下或者下載一下 dkhadoop 學習版本瞭解。以下是關於 dkhadoop 版本的問題:

DKH標準版     DKH-分散式SQL版   DK.HADOOP發行版

DKH標準版有三個不同的子版本:用於開發除錯的單機版;支援三節點的學習版;支援5節點以上的標準伺服器版

DKH-分散式SQL版有兩個子版本:學習版、伺服器版

 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31524777/viewspace-2216675/,如需轉載,請註明出處,否則將追究法律責任。

相關文章