好程式設計師大資料培訓分享大資料兩大核心技術，今天小編給大家先分享一下大資料的兩大核心技術，知己知彼才能百戰不殆，學習大資料技術也是一樣的道理，要先有一個清晰的瞭解，才能確保自己全身心的投入學習。

　　 Hadoop 是什麼 ?

　　 Hadoop 在 2006 年開始成為雅虎專案，隨後晉升為頂級 Apache 開源專案。它是一種通用的分散式系統基礎架構，具有多個元件： Hadoop 分散式檔案系統 (HDFS) ，它將檔案以 Hadoop 本機格式儲存並在叢集中並行化 ; YARN ，協調應用程式執行時的排程程式 ; MapReduce ，這是實際並行處理資料的演算法。 Hadoop 使用 Java 程式語言構建，其上的應用程式也可以使用其他語言編寫。透過一個 Thrift 客戶端，使用者可以編寫 MapReduce 或者 Python 程式碼。

　　除了這些基本元件外，Hadoop 還包括 Sqoop ，它將關係資料移入 HDFS; Hive ，一種類似 SQL 的介面，允許使用者在 HDFS 上執行查詢 ; Mahout ，機器學習。除了將 HDFS 用於檔案儲存之外， Hadoop 現在還可以配置使用 S3 buckets 或 Azure blob 作為輸入。

　　它可以透過Apache 發行版開源，也可以透過 Cloudera( 規模和範圍最大的 Hadoop 供應商 ) ， MapR 或 HortonWorks 等廠商提供。

　　 Spark 是什麼 ?

　　Spark 是一個較新的專案，在 2012 年誕生在加州大學伯克利分校的 AMPLab 。它也是一個頂級 Apache 專案，專注於在叢集中並行處理資料，一大區別在於它在記憶體中執行。

　　類似於Hadoop 讀取和寫入檔案到 HDFS 的概念， Spark 使用 RDD( 彈性分散式資料集 ) 處理 RAM 中的資料。 Spark 以獨立模式執行， Hadoop 叢集可用作資料來源，也可與 Mesos 一起執行。在後一種情況下， Mesos 主站將取代 Spark 主站或 YARN 以進行排程。

　　Spark 是圍繞 Spark Core 構建的， Spark Core 是驅動排程，最佳化和 RDD 抽象的引擎，並將 Spark 連線到正確的檔案系統 (HDFS ， S3 ， RDBM 或 Elasticsearch) 。 Spark Core 上還執行了幾個庫，包括 Spark SQL ，允許使用者在分散式資料集上執行類似 SQL 的命令，用於機器學習的 MLLib ，用於解決圖形問題的 GraphX 以及允許輸入連續流式日誌資料的 Streaming 。

　　Spark 有幾個 API 。原始介面是用 Scala 編寫的，並且由於大量資料科學家的使用，還新增了 Python 和 R 介面。 Java 是編寫 Spark 作業的另一種選擇。

　　 Databricks 是由 Spark 創始人 Matei Zaharia 創立的公司，現在負責 Spark 開發併為客戶提供 Spark 分銷。

　　 Hadoop 和 spark 兩個大資料的核心技術的基礎講解在此就順應結束了，想要提升自己的技術，想要突破自己的技術領域，歡迎撩小編，已經為你準備好了全套的大資料學習資料！

好程式設計師大資料培訓分享大資料兩大核心技術

相關文章