hadoop第一課

那是個好男孩發表於2018-03-14
Hadoop基本概念
  • 在當下的IT領域,大資料很“熱”,實現大資料場 景的Hadoop系列產品更“熱”。
  • Hadoop是一個開源的分散式系統基礎架構,由 Apache基金會開發。
  • 此架構可以幫助使用者可以在不瞭解分散式底層細 節的情況下,開發分散式程式。
  • 目前,主要的發展版本有Hadoop1.0和Hadoop2.0 。
  • 名字來源於創始人——Doug Cutting兒子的一個黃 色的玩具大象
  • 雛形:Doug Cutting用java程式碼編寫,實現與 Google類似的全文搜尋功能,它提供了全文檢索 引擎的架構,包括完整的查詢引擎和索引引擎。
  • 2001年年底成為apache軟體基金會jakarta的一個 子專案。
  • Hadoop起源於Google的叢集系統
  • Google的三大核心的分散式技術
            – 2003年,GFS分散式儲存系統
            – 2004年,MapReduce分散式處理技術
            – 2006年,BigTable分散式資料庫
  • 對於大資料量的場景,迫使Doug Cutting學習 和模仿Google解決這些問題。
目前最新應用領域
農業 • 地震臺網監測 • 醫療 • 可穿戴裝置 • 無人駕駛汽車
討論課題
任何事物都具有兩面性,請分組討論:在你的眼中“大資料”處理技術給人類帶來了哪些好處? 哪些問題?
課程安排
課程安排分為理論課(32學時)和實驗課(16學時)
  • 理論課 
  – Hadoop概述
  – YARN設計理念與基礎架構
   – MapReduce程式設計模型
  – HDFS詳解
  • 實驗課
  – Hadoop2.0的環境搭建
  – MapReduce開發環境搭建
  – 除錯執行編寫MapReduce詞頻統計程式
  – MapReduce程式程式設計
課程目標
• 瞭解YARN的基本工作原理
• 瞭解Hadoop2.0的兩大核心模組的工作原理
• 熟悉Hadoop2.0環境搭建、配置與管理
• 熟練向Hadoop提交作業以及查詢作業執行情況
• 能書寫Map-Reduce程式 • 能熟練地對HDFS中的檔案進行管理
參考文獻
• Hadoop實戰
• Hadoop權威指南
 
 
課堂筆記
(1)理解 叢集 分散式 資料中心的概念 以及其中的關係?
答:叢集大抵是指硬體,分散式大抵是指軟體,叢集加上分散式的商業化體現就是資料中心。
(2)理解可遷移技術與負載均衡的概念。
答:舉個例子,一個遊戲,有三個區,每個區各有三臺伺服器。我們都知道晚飯過後,登入遊戲的人很多,倘若一區爆滿,二區三區人相對比較少,此時可遷移技術就派上了用場,把二三區空閒的伺服器遷移到一區或者將另外備用的伺服器給一區,進而負載均衡。同樣的道理,在遊戲中,過不了的動畫,副本排隊,卡下線,都和可遷移技術和負載均衡有關。再舉個例子,深夜的時候,打遊戲的人相對會少很多,這時,運營商可能就會關掉二區三區的伺服器,只留下一區的伺服器,以此來減少成本。
(3)理解網際網路 雲端計算 大資料 人工智慧的概念 以及彼此之間的關係?
答:略。
————————————————————————————————
 

相關文章