大資料方面核心技術有哪些?新人必讀

大資料學習發表於2019-05-01

大資料技術的體系龐大且複雜,基礎的技術包含資料的採集、資料預處理、分散式儲存、NoSQL資料庫、資料倉儲、機器學習、平行計算、視覺化等各種技術範疇和不同的技術層面。首先給出一個通用化的大資料處理框架,主要分為下面幾個方面: 資料採集與預處理、資料儲存、資料清洗、資料查詢分析和資料視覺化。

在這裡還是要推薦下我自己建的大資料學習交流群:529867072,群裡都是學大資料開發的,如果你正在學大資料 ,小編歡迎你加入,大家都是軟體開發黨,不定期分享乾貨(只有大資料軟體開發相關的),包括我自己整理的一份最新的大資料進階資料和高階開發教程,歡迎進階中和進想深入大資料的小夥伴加入。

一、資料採集與預處理

對於各種來源的資料,包括移動網際網路資料、社交網路的資料等,這些結構化和非結構化的海量資料是零散的,也就是所謂的資料孤島,此時的這些資料並沒有什麼意義,資料採集就是將這些資料寫入資料倉儲中,把零散的資料整合在一起,對這些資料綜合起來進行分析。資料採集包括檔案日誌的採集、資料庫日誌的採集、關係型資料庫的接入和應用程式的接入等。在資料量比較小的時候,可以寫個定時的指令碼將日誌寫入儲存系統,但隨著資料量的增長,這些方法無法提供資料安全保障,並且運維困難,需要更強壯的解決方案。

Flume NG作為實時日誌收集系統,支援在日誌系統中定製各類資料傳送方,用於收集資料,同時,對資料進行簡單處理,並寫到各種資料接收方(比如文字,HDFS,Hbase等)。Flume NG採用的是三層架構:Agent層,Collector層和Store層,每一層均可水平擴充。其中Agent包含Source,Channel和 Sink,source用來消費(收集)資料來源到channel元件中,channel作為中間臨時儲存,儲存所有source的元件資訊,sink從channel中讀取資料,讀取成功之後會刪除channel中的資訊。

NDC,Netease Data Canal,直譯為網易資料運河系統,是網易針對結構化資料庫的資料實時遷移、同步和訂閱的平臺化解決方案。它整合了網易過去在資料傳輸領域的各種工具和經驗,將單機資料庫、分散式資料庫、OLAP系統以及下游應用透過資料鏈路串在一起。除了保障高效的資料傳輸外,NDC的設計遵循了單元化和平臺化的設計哲學。

Logstash是開源的伺服器端資料處理管道,能夠同時從多個來源採集資料、轉換資料,然後將資料傳送到您最喜歡的 “儲存庫” 中。一般常用的儲存庫是Elasticsearch。Logstash 支援各種輸入選擇,可以在同一時間從眾多常用的資料來源捕捉事件,能夠以連續的流式傳輸方式,輕鬆地從您的日誌、指標、Web 應用、資料儲存以及各種 AWS 服務採集資料。

Sqoop,用來將關係型資料庫和Hadoop中的資料進行相互轉移的工具,可以將一個關係型資料庫(例如Mysql、Oracle)中的資料匯入到Hadoop(例如HDFS、Hive、Hbase)中,也可以將Hadoop(例如HDFS、Hive、Hbase)中的資料匯入到關係型資料庫(例如Mysql、Oracle)中。Sqoop 啟用了一個 MapReduce 作業(極其容錯的分散式平行計算)來執行任務。Sqoop 的另一大優勢是其傳輸大量結構化或半結構化資料的過程是完全自動化的。

流式計算是行業研究的一個熱點,流式計算對多個高吞吐量的資料來源進行實時的清洗、聚合和分析,可以對存在於社交網站、新聞等的資料資訊流進行快速的處理並反饋,目前大資料流分析工具有很多,比如開源的strom,spark streaming等。

Strom叢集結構是有一個主節點(nimbus)和多個工作節點(supervisor)組成的主從結構,主節點透過配置靜態指定或者在執行時動態選舉,nimbus與supervisor都是Storm提供的後臺守護程式,之間的通訊是結合Zookeeper的狀態變更通知和監控通知來處理。nimbus程式的主要職責是管理、協調和監控叢集上執行的topology(包括topology的釋出、任務指派、事件處理時重新指派任務等)。supervisor程式等待nimbus分配任務後生成並監控worker(jvm程式)執行任務。supervisor與worker執行在不同的jvm上,如果由supervisor啟動的某個worker因為錯誤異常退出(或被kill掉),supervisor會嘗試重新生成新的worker程式。

當使用上游模組的資料進行計算、統計、分析時,就可以使用訊息系統,尤其是分散式訊息系統。Kafka使用Scala進行編寫,是一種分散式的、基於釋出/訂閱的訊息系統。Kafka的設計理念之一就是同時提供離線處理和實時處理,以及將資料實時備份到另一個資料中心,Kafka可以有許多的生產者和消費者分享多個主題,將訊息以topic為單位進行歸納;Kafka釋出訊息的程式稱為producer,也叫生產者,預訂topics並消費訊息的程式稱為consumer,也叫消費者;當Kafka以叢集的方式執行時,可以由一個服務或者多個服務組成,每個服務叫做一個broker,執行過程中producer透過網路將訊息傳送到Kafka叢集,叢集向消費者提供訊息。Kafka透過Zookeeper管理叢集配置,選舉leader,以及在Consumer Group發生變化時進行rebalance。Producer使用push模式將訊息釋出到broker,Consumer使用pull模式從broker訂閱並消費訊息。Kafka可以和Flume一起工作,如果需要將流式資料從Kafka轉移到hadoop,可以使用Flume代理agent,將Kafka當做一個來源source,這樣可以從Kafka讀取資料到Hadoop。

Zookeeper是一個分散式的,開放原始碼的分散式應用程式協調服務,提供資料同步服務。它的作用主要有配置管理、名字服務、分散式鎖和叢集管理。配置管理指的是在一個地方修改了配置,那麼對這個地方的配置感興趣的所有的都可以獲得變更,省去了手動複製配置的繁瑣,還很好的保證了資料的可靠和一致性,同時它可以透過名字來獲取資源或者服務的地址等資訊,可以監控叢集中機器的變化,實現了類似於心跳機制的功能。

二、資料儲存

Hadoop作為一個開源的框架,專為離線和大規模資料分析而設計,HDFS作為其核心的儲存引擎,已被廣泛用於資料儲存。

HBase,是一個分散式的、面向列的開源資料庫,可以認為是hdfs的封裝,本質是資料儲存、NoSQL資料庫。HBase是一種Key/Value系統,部署在hdfs上,克服了hdfs在隨機讀寫這個方面的缺點,與hadoop一樣,Hbase目標主要依靠橫向擴充套件,透過不斷增加廉價的商用伺服器,來增加計算和儲存能力。

Phoenix,相當於一個Java中介軟體,幫助開發工程師能夠像使用JDBC訪問關係型資料庫一樣訪問NoSQL資料庫HBase。

Yarn是一種Hadoop資源管理器,可為上層應用提供統一的資源管理和排程,它的引入為叢集在利用率、資源統一管理和資料共享等方面帶來了巨大好處。Yarn由下面的幾大元件構成:一個全域性的資源管理器ResourceManager、ResourceManager的每個節點代理NodeManager、表示每個應用的Application以及每一個ApplicationMaster擁有多個Container在NodeManager上執行。

Mesos是一款開源的叢集管理軟體,支援Hadoop、ElasticSearch、Spark、Storm 和Kafka等應用架構。

Redis是一種速度非常快的非關聯式資料庫,可以儲存鍵與5種不同型別的值之間的對映,可以將儲存在記憶體的鍵值對資料持久化到硬碟中,使用複製特性來擴充套件效能,還可以使用客戶端分片來擴充套件寫效能。

Atlas是一個位於應用程式與MySQL之間的中介軟體。在後端DB看來,Atlas相當於連線它的客戶端,在前端應用看來,Atlas相當於一個DB。Atlas作為服務端與應用程式通訊,它實現了MySQL的客戶端和服務端協議,同時作為客戶端與MySQL通訊。它對應用程式遮蔽了DB的細節,同時為了降低MySQL負擔,它還維護了連線池。Atlas啟動後會建立多個執行緒,其中一個為主執行緒,其餘為工作執行緒。主執行緒負責監聽所有的客戶端連線請求,工作執行緒只監聽主執行緒的命令請求。

Kudu是圍繞Hadoop生態圈建立的儲存引擎,Kudu擁有和Hadoop生態圈共同的設計理念,它執行在普通的伺服器上、可分散式規模化部署、並且滿足工業界的高可用要求。其設計理念為fast analytics on fast data。作為一個開源的儲存引擎,可以同時提供低延遲的隨機讀寫和高效的資料分析能力。Kudu不但提供了行級的插入、更新、刪除API,同時也提供了接近Parquet效能的批次掃描操作。使用同一份儲存,既可以進行隨機讀寫,也可以滿足資料分析的要求。Kudu的應用場景很廣泛,比如可以進行實時的資料分析,用於資料可能會存在變化的時序資料應用等。

在資料儲存過程中,涉及到的資料表都是成千上百列,包含各種複雜的Query,推薦使用列式儲存方法,比如parquent,ORC等對資料進行壓縮。Parquet 可以支援靈活的壓縮選項,顯著減少磁碟上的儲存。

三、資料清洗

MapReduce作為Hadoop的查詢引擎,用於大規模資料集的平行計算,”Map(對映)”和”Reduce(歸約)”,是它的主要思想。它極大的方便了程式設計人員在不會分散式並行程式設計的情況下,將自己的程式執行在分散式系統中。

隨著業務資料量的增多,需要進行訓練和清洗的資料會變得越來越複雜,這個時候就需要任務排程系統,比如oozie或者azkaban,對關鍵任務進行排程和監控。

Oozie是用於Hadoop平臺的一種工作流排程引擎,提供了RESTful API介面來接受使用者的提交請求(提交工作流作業),當提交了workflow後,由工作流引擎負責workflow的執行以及狀態的轉換。使用者在HDFS上部署好作業(MR作業),然後向Oozie提交Workflow,Oozie以非同步方式將作業(MR作業)提交給Hadoop。這也是為什麼當呼叫Oozie 的RESTful介面提交作業之後能立即返回一個JobId的原因,使用者程式不必等待作業執行完成(因為有些大作業可能會執行很久(幾個小時甚至幾天))。Oozie在後臺以非同步方式,再將workflow對應的Action提交給hadoop執行。

Azkaban也是一種工作流的控制引擎,可以用來解決有多個hadoop或者spark等離線計算任務之間的依賴關係問題。azkaban主要是由三部分構成:Relational Database,Azkaban Web Server和Azkaban Executor Server。azkaban將大多數的狀態資訊都儲存在MySQL中,Azkaban Web Server提供了Web UI,是azkaban主要的管理者,包括project的管理、認證、排程以及對工作流執行過程中的監控等;Azkaban Executor Server用來排程工作流和任務,記錄工作流或者任務的日誌。

流計算任務的處理平臺Sloth,是網易首個自研流計算平臺,旨在解決公司內各產品日益增長的流計算需求。作為一個計算服務平臺,其特點是易用、實時、可靠,為使用者節省技術方面(開發、運維)的投入,幫助使用者專注於解決產品本身的流計算需求。

四、資料查詢分析

Hive的核心工作就是把SQL語句翻譯成MR程式,可以將結構化的資料對映為一張資料庫表,並提供 HQL(Hive SQL)查詢功能。Hive本身不儲存和計算資料,它完全依賴於HDFS和MapReduce。可以將Hive理解為一個客戶端工具,將SQL操作轉換為相應的MapReduce jobs,然後在hadoop上面執行。Hive支援標準的SQL語法,免去了使用者編寫MapReduce程式的過程,它的出現可以讓那些精通SQL技能、但是不熟悉MapReduce 、程式設計能力較弱與不擅長Java語言的使用者能夠在HDFS大規模資料集上很方便地利用SQL 語言查詢、彙總、分析資料。

Hive是為大資料批次處理而生的,Hive的出現解決了傳統的關係型資料庫(MySql、Oracle)在大資料處理上的瓶頸 。Hive 將執行計劃分成map->shuffle->reduce->map->shuffle->reduce…的模型。如果一個Query會被編譯成多輪MapReduce,則會有更多的寫中間結果。由於MapReduce執行框架本身的特點,過多的中間過程會增加整個Query的執行時間。在Hive的執行過程中,使用者只需要建立表,匯入資料,編寫SQL分析語句即可。剩下的過程由Hive框架自動的完成。

Impala是對Hive的一個補充,可以實現高效的SQL查詢。使用Impala來實現SQL on Hadoop,用來進行大資料實時查詢分析。透過熟悉的傳統關係型資料庫的SQL風格來操作大資料,同時資料也是可以儲存到HDFS和HBase中的。Impala沒有再使用緩慢的Hive+MapReduce批處理,而是透過使用與商用並行關聯式資料庫中類似的分散式查詢引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分組成),可以直接從HDFS或HBase中用SELECT、JOIN和統計函式查詢資料,從而大大降低了延遲。Impala將整個查詢分成一執行計劃樹,而不是一連串的MapReduce任務,相比Hive沒了MapReduce啟動時間。

Hive 適合於長時間的批處理查詢分析,而Impala適合於實時互動式SQL查詢,Impala給資料人員提供了快速實驗,驗證想法的大資料分析工具,可以先使用Hive進行資料轉換處理,之後使用Impala在Hive處理好後的資料集上進行快速的資料分析。總的來說:Impala把執行計劃表現為一棵完整的執行計劃樹,可以更自然地分發執行計劃到各個Impalad執行查詢,而不用像Hive那樣把它組合成管道型的map->reduce模式,以此保證Impala有更好的併發性和避免不必要的中間sort與shuffle。但是Impala不支援UDF,能處理的問題有一定的限制。

Spark擁有Hadoop MapReduce所具有的特點,它將Job中間輸出結果儲存在記憶體中,從而不需要讀取HDFS。Spark 啟用了記憶體分佈資料集,除了能夠提供互動式查詢外,它還可以最佳化迭代工作負載。Spark 是在 Scala 語言中實現的,它將 Scala 用作其應用程式框架。與 Hadoop 不同,Spark 和 Scala 能夠緊密整合,其中的 Scala 可以像操作本地集合物件一樣輕鬆地操作分散式資料集。

Nutch 是一個開源Java 實現的搜尋引擎。它提供了我們執行自己的搜尋引擎所需的全部工具,包括全文搜尋和Web爬蟲。

Solr用Java編寫、執行在Servlet容器(如Apache Tomcat或Jetty)的一個獨立的企業級搜尋應用的全文搜尋伺服器。它對外提供類似於Web-service的API介面,使用者可以透過http請求,向搜尋引擎伺服器提交一定格式的XML檔案,生成索引;也可以透過Http Get操作提出查詢請求,並得到XML格式的返回結果。

Elasticsearch是一個開源的全文搜尋引擎,基於Lucene的搜尋伺服器,可以快速的儲存、搜尋和分析海量的資料。設計用於雲端計算中,能夠達到實時搜尋,穩定,可靠,快速,安裝使用方便。

還涉及到一些機器學習語言,比如,Mahout主要目標是建立一些可伸縮的機器學習演算法,供開發人員在Apache的許可下免費使用;深度學習框架Caffe以及使用資料流圖進行數值計算的開源軟體庫TensorFlow等,常用的機器學習演算法比如,貝葉斯、邏輯迴歸、決策樹、神經網路、協同過濾等。

五、資料視覺化

對接一些BI平臺,將分析得到的資料進行視覺化,用於指導決策服務。主流的BI平臺比如,國外的敏捷BI Tableau、Qlikview、PowrerBI等,國內的SmallBI和新興的網易有數(可點選這裡免費試用)等。

在上面的每一個階段,保障資料的安全是不可忽視的問題。

基於網路身份認證的協議Kerberos,用來在非安全網路中,對個人通訊以安全的手段進行身份認證,它允許某實體在非安全網路環境下通訊,向另一個實體以一種安全的方式證明自己的身份。

控制許可權的ranger是一個Hadoop叢集許可權框架,提供操作、監控、管理複雜的資料許可權,它提供一個集中的管理機制,管理基於yarn的Hadoop生態圈的所有資料許可權。可以對Hadoop生態的元件如Hive,Hbase進行細粒度的資料訪問控制。透過操作Ranger控制檯,管理員可以輕鬆的透過配置策略來控制使用者訪問HDFS資料夾、HDFS檔案、資料庫、表、欄位許可權。這些策略可以為不同的使用者和組來設定,同時許可權可與hadoop無縫對接。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69917001/viewspace-2643078/,如需轉載,請註明出處,否則將追究法律責任。

相關文章