好程式設計師大資料培訓分享大資料兩大核心技術

好程式設計師發表於2020-06-05

  好程式設計師大資料培訓分享 大資料兩大核心技術 今天小編給大家先分享一下大資料的兩大核心技術,知己知彼才能百戰不殆,學習大資料技術也是一樣的道理,要先有一個清晰的瞭解,才能確保自己全身心的投入學習。

   Hadoop 是什麼 ?

   Hadoop 2006 年開始成為雅虎專案,隨後晉升為頂級 Apache 開源專案。它是一種通用的分散式系統基礎架構,具有多個元件: Hadoop 分散式檔案系統 (HDFS) ,它將檔案以 Hadoop 本機格式儲存並在叢集中並行化 ; YARN ,協調應用程式執行時的排程程式 ; MapReduce ,這是實際並行處理資料的演算法。 Hadoop 使用 Java 程式語言構建,其上的應用程式也可以使用其他語言編寫。透過一個 Thrift 客戶端,使用者可以編寫 MapReduce 或者 Python 程式碼。

  除了這些基本元件外,Hadoop 還包括 Sqoop ,它將關係資料移入 HDFS; Hive ,一種類似 SQL 的介面,允許使用者在 HDFS 上執行查詢 ; Mahout ,機器學習。除了將 HDFS 用於檔案儲存之外, Hadoop 現在還可以配置使用 S3 buckets Azure blob 作為輸入。

  它可以透過Apache 發行版開源,也可以透過 Cloudera( 規模和範圍最大的 Hadoop 供應商 ) MapR HortonWorks 等廠商提供。

   Spark 是什麼 ?

  Spark 是一個較新的專案,在 2012 年誕生在加州大學伯克利分校的 AMPLab 。它也是一個頂級 Apache 專案,專注於在叢集中並行處理資料,一大區別在於它在 記憶體 中執行。

  類似於Hadoop 讀取和寫入檔案到 HDFS 的概念, Spark 使用 RDD( 彈性分散式資料集 ) 處理 RAM 中的資料。 Spark 以獨立模式執行, Hadoop 叢集可用作資料來源,也可與 Mesos 一起執行。在後一種情況下, Mesos 主站將取代 Spark 主站或 YARN 以進行排程。

  Spark 是圍繞 Spark Core 構建的, Spark Core 是驅動排程,最佳化和 RDD 抽象的引擎,並將 Spark 連線到正確的檔案系統 (HDFS S3 RDBM Elasticsearch) Spark Core 上還執行了幾個庫,包括 Spark SQL ,允許使用者在分散式資料集上執行類似 SQL 的命令,用於機器學習的 MLLib ,用於解決圖形問題的 GraphX 以及允許輸入連續流式日誌資料的 Streaming

  Spark 有幾個 API 。原始介面是用 Scala 編寫的,並且由於大量資料科學家的使用,還新增了 Python R 介面。 Java 是編寫 Spark 作業的另一種選擇。

   Databricks 是由 Spark 創始人 Matei Zaharia 創立的公司,現在負責     Spark 開發併為客戶提供 Spark 分銷。

   Hadoop spark 兩個大資料的核心技術的基礎講解在此就順應結束了,想要提升自己的技術,想要突破自己的技術領域,歡迎撩小編,已經為你準備好了全套的大資料學習資料!


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69913864/viewspace-2696339/,如需轉載,請註明出處,否則將追究法律責任。

相關文章