**大資料hadoop瞭解**

維卡發表於2018-12-18

一、Hadoop介紹

 什麼是“hadoop”?
 大資料的概念與應用
 雲端計算

1.什麼是“hadoop”?

	Hadoop是大資料的一個總稱hadoop Yarn是dadoop2的一個基礎框架。
	常用的是hadoop Yarn, 它也是一個開發和執行處理大規模資料的軟體平臺,
	可編寫和執行分散式應用處理大規模資料,是Appach的一個用**java語言實現開源軟體框架**。
	實現在大量計算機組成的叢集中對海量資料進行分散式計算

2.大資料的概念與應用

	1) 大資料是指以多元形式,自許多來源蒐集而來的龐大資料組,往往具有實時性。
	在企業對企業銷售的情況下,這些資料可能得自社交網路、電子商務網站、顧客來訪紀錄,還有許多其他來源。
	這些資料,並非公司顧客關係管理資料庫的常態資料組。
    2)大資料具有資料規模大,,網際網路每天產生的全部內容可以刻滿6.4億張DVD、資料類別複雜、
    資料處理速度快、資料真實性高、資料蘊藏價值的特點,對於大資料的處理和挖掘很大程度上需要**依賴於雲端計算**
    平臺的分散式處理、分散式資料庫、雲端儲存和虛擬化技術。

3.雲端計算?

    雲端計算(Cloud Computing)是分散式計算(Distributed Computing)、平行計算  (Parallel Computing)
    效用計算(Utility Computing)、 網路儲存(Network Storage Technologies)、虛擬化(Virtualization)
    負載均衡(Load Balance)、熱備冗(High Available)等傳統計算機和網路技術發展融合的產物。

雲端計算分為三類:

 SaaS: 軟體即服務, 使用者無需安裝軟體, 
       而是用標準客戶端(瀏覽器)即可使用軟體服務, 比如Google Docs
 IaaS: 基礎設施即服務, 使用者無需購買硬體, 
       而是租賃雲端計算提供商的基礎設施, 部署自己的OS, 進行自己的計算, 
       這裡的使用者一般是商業機構而不是終端消費者. IaaS最有名的提供商是亞馬遜的AWS
 PaaS:與IaaS類似, 只是使用者不再控制OS, 
      而是利用雲端計算提供商提供的OS和開發環境做開發.

課堂隨筆小記

  1. web容器-容器又可以稱作web伺服器
  2. 叢集:它是多臺計算機協作解決問題
    包括: - 負載均衡 (weblogic)
    - 熱備
  3. Hodoop中 java語言在jvm中大於c++語言(除hadoop外c++最高)
  4. spark scala python(常用於金融類 效率慢) r ( 比python更慢) —建模模型 y=ax+b ,y=5x-2(一次函式);
  5. json(沒轉之前資訊量較大 ,自身編寫較小) 序列化協議 -結構轉成String型別 反序列化 struct-String ;
  6. DAS 儲存裝置只用於與獨立的一臺主機伺服器連線,其他主機不能使用這個儲存裝置。
    NAS 是通過網頁連線
  7. (Duker一切)用於web伺服器 並不支援windows系統
  8. Kernel:核心 是一個作業系統的核心。是基於硬體的第一層軟體擴充,提供作業系統的最基本的功能,是作業系統工作的基礎,負責管理系統的程式、記憶體、裝置驅動程式、檔案和網路系統、決定著系統的效能和穩定。
  9. mongoDB:是一個基於分散式檔案儲存的資料庫。由c++語言編寫。意在為web應用提供可擴充套件的高效能資料儲存解決方案。它是一個介於關聯式資料庫和非關聯式資料庫之間的產品,是非關聯式資料庫當中功能最豐富,最像關聯式資料庫的。
  10. 集線器:廣播模式
  11. 交換機:二層 (獨佔模式)
  12. 路由器 三層
  13. 擴充:bat b(百度) a(阿里) t(騰訊)

相關文章