DKHadoop大資料開發框架的構成模組

adnb34g發表於2018-10-19


大資料也不是近幾年才出現的新東西,只是最近幾年才真正意義上變得熱門、火爆!而這要得益於網際網路資訊科技的快速發展,網路改變世界、改變生活,大資料技術的應用讓這樣的改變更為深刻。

關注大資料或者是網際網路方面新聞的人應該知道,大資料已經上升到了國家戰略的高度。可以說這是時代發展的必然趨勢,從國家戰略層面推進大資料技術的普及與應用,一個至關重要且非常核心的問題 ——資料安全問題就非常突出。解決資料安全問題,必然要回歸到大資料開發所使用的框架!

 

國內的大資料開發起步較晚於國外,所有關於大資料大開發的各種標準和規則都是採用國外的那一套。國內做大資料開發的企業或者機構組織所推出的大部分商業發行版本都是對開源程式的二次包裝,從事大資料底層開發的少之又少。做大資料原生態開發且又推出商業發行版的,行業也就只有大快搜尋,可能在未來的三五年內也許還會有做大資料原生態開發的出現。

為何大資料的普及度不高,主要是由於大資料的應用開發太過偏向於底層,學習的難度不是一般的大,所涉及到的技術面廣太大,不是一般人所能夠駕馭得了的。市場上大部分打著 hadoop 國產發行版,也只是把國外的拿過來重新修改了一下而已。大快 DKhadoop 把大資料開發中的一些通用的,重複使用的基礎程式碼、演算法封裝為類庫,在很大程度上降低了開發的難度。相信這個對於從事開發的人員看了就更容易懂了。

下面,就給大家介紹看一下大快的大資料開發框架的模組構成都有哪些:

大快大資料一體化開發框架主要由六部分組成:資料來源與 SQL 引擎、資料採集(自定義爬蟲)模組、資料處理模組、機器學習演算法、自然語言處理模組、搜尋引擎模組。

 

如果在開源大資料框架上部署大快的開發框架,需要平臺的元件支援如下:

資料來源與 SQL引擎:DK.Hadoop、spark、hive、sqoop、flume、kafka

資料採集: DK.hadoop

資料處理模組: DK.Hadoop、spark、storm、hive

機器學習和 AI:DK.Hadoop、spark

NLP模組:上傳伺服器端JAR包,直接支援

搜尋引擎模組:不獨立釋出

 

 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31524777/viewspace-2216905/,如需轉載,請註明出處,否則將追究法律責任。

相關文章