我的大資料學習之路

prg_summer發表於2017-03-31
對於我們新手入門學習hadoop大資料儲存的朋友來說,首先了解一下雲端計算和雲端計算技術是有必要的。下面先是介紹雲端計算和雲端計算技術的:              雲端計算,是一種基於網際網路的計算方式,通過這種方式,共享的軟硬體資源和資訊可以按需求提供給計算機和其他裝置,主要是基於網際網路的相關服務地增加、使用和交付模式,通常涉及通過網際網路來提供動態易擴充套件且經常是虛擬化的資源。雲是網路、網際網路的一種比喻說法。過去在圖中往往用雲來表示電信網,後來也用來表示網際網路和底層基礎設施的抽象。狹義雲端計算指IT基礎設施的交付和使用模式,指通過網路以按需、易擴充套件的方式獲得所需資源;廣義雲端計算指服務地交付和使用模式,指通過網路以按需、易擴充套件的方式獲得所需服務。這種服務可以是IT和軟體、網際網路相關,也可是其他服務。它意味著計算也可作為一種商品通過網際網路進行流通。
       什麼是雲端計算
       什麼是雲端計算技術
       在世界上雲端計算已經大面流行,有很流行的Google Drive、SkyDrive、Dropbox、亞馬遜雲服務等等。在國內百度雲儲存、360雲端儲存都是比較流行的。
      我們就應該會想到大資料儲存,目前開源市場上最流行的應該是hadoop分散式儲存,已經有大部分網際網路公司已經開始使用,例如百度、360、阿里巴巴,其中一部分公司已經把hadoop作為他們的核心產品例如英特爾、IBM併為部分工作提供過大資料的解決方案,大家可以瞭解一下英特爾在不行業提供的解決方案:
       Hadoop是一個能夠對大量資料進行分散式處理的軟體框架,它是一種技術的實現,是雲端計算技術中重要的組成部分,雲端計算的概念更廣泛且偏向業務而不是必須拘泥於某項具體技術,雲端計算的存在只是一種新的商業計算模型和服務模式。因此,雲端計算才會出現“橫看成嶺側成峰,遠近高低各不同”,各種各樣層出不窮的理解。
hadoop 大資料以後的方向:超越Hadoop的大資料未來的研究方向
      所以hadoop在大資料方面以後是主流,對我們想接觸大資料的朋友是有必要學習hadoop的,對於初學的朋友:
      hadoop前景、畢業薪酬,你所關心的 我想這些更是大家想要關心的內容,也是初學朋友有必要的看的。

      對於初學hadoop的朋友來說可能基於迫切尋找一本入門的書,我個人覺得不用於急於尋找書,先了解hadoop是否做什麼、它能做什麼、能帶來什麼 hadoop使用場景Hadoop到底能做什麼?怎麼用hadoop?,當大家對這些有所瞭解,就會如何入手學習hadoop
      接下來大家應該進行系統性的學習hadoop了,我個人建議不要盲目的去搭建hadoop環境,熟悉瞭解hadoop基本知識及其所需要的知識例如java基礎、linux環境、linux常用命令,它相關產品及其衍生產品,他們之間是什麼關係如何工作,每個產品它們的特點是什麼,下面是hadoop一些基本知識:
    上面這些都是hadoop核心部分,當這些有所瞭解後,大家基本上可以具備大家hadoop環境的條件了。

    hadoop部署方式為單機模式、偽分散式、完全分散式。對單機模式大家可以不用去關心和學習,在學習中我個人建議是搭建偽分散式,完全分散式是生產環境中使用,當大家把偽分散式後,必須對完全分散式有所瞭解,知道是如何工作的,也可以試著搭建hadoop的完成分散式。現在hadoop已經發行了最新的2.2.x版本,但是不測試不夠全面不夠穩定,大家應該選擇比較穩定的版本學習,因為在公司中還是會使用穩定的版本,2.2.x版本中一些處理機制和方案是值得我們學習的,需要所有了解, Hadoop 各個釋出版的特性以及穩定性
下面是搭建hadoop的安裝步驟。
    搭建偽分散式:hadoop 偽分散式搭建        完全分散式:hadoop 三節點叢集安裝配置詳細例項
大家安裝完成後需要一些基本的練級:
   大家這些有了基礎性的學習後,這時候是比較適合找本書來系統性的學習hadoop。

   有一點想提醒初學的朋友,在學習hadoop開發的時候不要使用hadoop eclipse外掛,這樣會給你帶來不必要的問題,你可以在eclipse使用maven工具下載hadoop資源包,然後寫好mapreduce程式碼打包後傳上自己的服務,使用命令啟動執行。 
   到這裡大家其實已經對hadoop有了系統性的認識和學習,我想後面的學習每個人的學習方式都是不同的,大家所需要的資料問題在論壇上都可以找的到。祝大家學習hadoop愉快。

相關文章