好程式設計師大資料培訓分享大資料兩大核心技術
好程式設計師大資料培訓分享 大資料兩大核心技術 , 今天小編給大家先分享一下大資料的兩大核心技術,知己知彼才能百戰不殆,學習大資料技術也是一樣的道理,要先有一個清晰的瞭解,才能確保自己全身心的投入學習。
Hadoop 是什麼 ?
Hadoop 在 2006 年開始成為雅虎專案,隨後晉升為頂級 Apache 開源專案。它是一種通用的分散式系統基礎架構,具有多個元件: Hadoop 分散式檔案系統 (HDFS) ,它將檔案以 Hadoop 本機格式儲存並在叢集中並行化 ; YARN ,協調應用程式執行時的排程程式 ; MapReduce ,這是實際並行處理資料的演算法。 Hadoop 使用 Java 程式語言構建,其上的應用程式也可以使用其他語言編寫。透過一個 Thrift 客戶端,使用者可以編寫 MapReduce 或者 Python 程式碼。
除了這些基本元件外,Hadoop 還包括 Sqoop ,它將關係資料移入 HDFS; Hive ,一種類似 SQL 的介面,允許使用者在 HDFS 上執行查詢 ; Mahout ,機器學習。除了將 HDFS 用於檔案儲存之外, Hadoop 現在還可以配置使用 S3 buckets 或 Azure blob 作為輸入。
它可以透過Apache 發行版開源,也可以透過 Cloudera( 規模和範圍最大的 Hadoop 供應商 ) , MapR 或 HortonWorks 等廠商提供。
Spark 是什麼 ?
Spark 是一個較新的專案,在 2012 年誕生在加州大學伯克利分校的 AMPLab 。它也是一個頂級 Apache 專案,專注於在叢集中並行處理資料,一大區別在於它在 記憶體 中執行。
類似於Hadoop 讀取和寫入檔案到 HDFS 的概念, Spark 使用 RDD( 彈性分散式資料集 ) 處理 RAM 中的資料。 Spark 以獨立模式執行, Hadoop 叢集可用作資料來源,也可與 Mesos 一起執行。在後一種情況下, Mesos 主站將取代 Spark 主站或 YARN 以進行排程。
Spark 是圍繞 Spark Core 構建的, Spark Core 是驅動排程,最佳化和 RDD 抽象的引擎,並將 Spark 連線到正確的檔案系統 (HDFS , S3 , RDBM 或 Elasticsearch) 。 Spark Core 上還執行了幾個庫,包括 Spark SQL ,允許使用者在分散式資料集上執行類似 SQL 的命令,用於機器學習的 MLLib ,用於解決圖形問題的 GraphX 以及允許輸入連續流式日誌資料的 Streaming 。
Spark 有幾個 API 。原始介面是用 Scala 編寫的,並且由於大量資料科學家的使用,還新增了 Python 和 R 介面。 Java 是編寫 Spark 作業的另一種選擇。
Databricks 是由 Spark 創始人 Matei Zaharia 創立的公司,現在負責 Spark 開發併為客戶提供 Spark 分銷。
Hadoop 和 spark 兩個大資料的核心技術的基礎講解在此就順應結束了,想要提升自己的技術,想要突破自己的技術領域,歡迎撩小編,已經為你準備好了全套的大資料學習資料!
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69913864/viewspace-2696339/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 好程式設計師大資料培訓分享Spark技術總結程式設計師大資料Spark
- 好程式設計師大資料培訓分享大資料的應用程式設計師大資料
- 好程式設計師大資料培訓分享大資料還學嗎?程式設計師大資料
- 好程式設計師大資料培訓分享Hadoop技術優缺點程式設計師大資料Hadoop
- 好程式設計師大資料培訓分享大資料的影響一程式設計師大資料
- 好程式設計師大資料培訓分享MapReduce理解程式設計師大資料
- 好程式設計師大資料培訓分享mysql資料型別程式設計師大資料MySql資料型別
- 好程式設計師大資料培訓分享大資料就業方向有哪些?程式設計師大資料就業
- 好程式設計師大資料培訓分享大資料面試寶典三程式設計師大資料面試
- 好程式設計師大資料培訓分享大資料面試寶典四程式設計師大資料面試
- 好程式設計師大資料培訓分享大資料面試寶典六程式設計師大資料面試
- 好程式設計師大資料培訓分享大資料面試寶典一程式設計師大資料面試
- 好程式設計師大資料培訓分享大資料面試寶典二程式設計師大資料面試
- 好程式設計師大資料培訓分享HDFS讀流程程式設計師大資料
- 好程式設計師大資料培訓分享spark之Scala程式設計師大資料Spark
- 好程式設計師大資料培訓分享:Hadoop叢集同步程式設計師大資料Hadoop
- 好程式設計師大資料培訓分享Hadoop怎樣處理資料?程式設計師大資料Hadoop
- 好程式設計師大資料培訓分享怎樣進行大資料入門學習程式設計師大資料
- 好程式設計師大資料培訓分享Hadoop的shuffle過程程式設計師大資料Hadoop
- 好程式設計師大資料培訓分享Hadoop分散式叢集程式設計師大資料Hadoop分散式
- 好程式設計師大資料培訓分享MySQL8.0新特性程式設計師大資料MySql
- 好程式設計師大資料培訓分享Hadoop入門進階程式設計師大資料Hadoop
- 好程式設計師大資料培訓分享之MySQL資料庫SQL簡介程式設計師大資料MySql資料庫
- 好程式設計師大資料培訓分享之《MySQL資料庫》常用函式整理程式設計師大資料MySql資料庫函式
- 好程式設計師大資料培訓分享MySQL資料庫儲存引擎簡介程式設計師大資料MySql資料庫儲存引擎
- 好程式設計師大資料培訓分享之Ambari和ClouderaManager對比程式設計師大資料Cloud
- 好程式設計師大資料培訓分享之hive儲存過程程式設計師大資料Hive儲存過程
- 好程式設計師大資料培訓分享HBase Filter過濾器概述程式設計師大資料Filter過濾器
- 好程式設計師大資料培訓分享如何區分Hive與HBase程式設計師大資料Hive
- 好程式設計師大資料培訓分享Spark需要什麼基礎?程式設計師大資料Spark
- 好程式設計師大資料培訓分享settings和mapping的意義程式設計師大資料APP
- 好程式設計師大資料培訓分享之hive常用內部函式程式設計師大資料Hive函式
- 好程式設計師大資料培訓分享Hive基礎知識講解程式設計師大資料Hive
- 好程式設計師大資料培訓教你快速學習MapReduce程式設計師大資料
- 好程式設計師大資料教程分享大資料之流程控制程式設計師大資料
- 好程式設計師大資料培訓分享Hadoop入門學習線路圖程式設計師大資料Hadoop
- 好程式設計師大資料培訓分享之hive常見自定義函式程式設計師大資料Hive函式
- 好程式設計師大資料培訓分享常見的Hadoop和Spark專案程式設計師大資料HadoopSpark