hadoop之 hadoop用途方向

張衝andy發表於2017-08-28
  1. hadoop是什麼?

    Hadoop是一個開源的框架,可編寫和執行分不是應用處理大規模資料,是專為離線和大規模資料分析而設計的,並不適合那種對幾個記錄隨機讀寫的線上事務處理模式。Hadoop=HDFS(檔案系統,資料儲存技術相關)+ Mapreduce(資料處理),Hadoop的資料來源可以是任何形式,在處理半結構化和非結構化資料上與關係型資料庫相比有更好的效能,具有更靈活的處理能力,不管任何資料形式最終會轉化為key/value,key/value是基本資料單元。用函式式變成Mapreduce代替SQL,SQL是查詢語句,而Mapreduce則是使用指令碼和程式碼,而對於適用於關係型資料庫,習慣SQL的Hadoop有開源工具hive代替。

  2. hadoop能做什麼?

    hadoop擅長日誌分析,facebook就用Hive來進行日誌分析,2009年時facebook就有非程式設計人員的30%的人使用HiveQL進行資料分析;淘寶搜尋中的自定義篩選也使用的Hive;利用Pig還可以做高階的資料處理,包括Twitter、LinkedIn 上用於發現您可能認識的人,可以實現類似Amazon.com的協同過濾的推薦效果。淘寶的商品推薦也是!在Yahoo!的40%的Hadoop作業是用pig執行的,包括垃圾郵件的識別和過濾,還有使用者特徵建模。(2012年8月25新更新,天貓的推薦系統是hive,少量嘗試mahout!)

  3. hadoop能為我司做什麼?
    • 大資料量儲存:分散式儲存
    • 日誌處理: Hadoop擅長這個
    • 海量計算: 平行計算
    • ETL:資料抽取到oracle、mysql、DB2、mongdb及主流資料庫
    • 使用HBase做資料分析: 用擴充套件性應對大量的寫操作—Facebook構建了基於HBase的實時資料分析系統
    • 機器學習: 比如Apache Mahout專案
    • 搜尋引擎:hadoop + lucene實現
    • 資料探勘:目前比較流行的廣告推薦
    • 大量地從檔案中順序讀。HDFS對順序讀進行了最佳化,代價是對於隨機的訪問負載較高。
    • 資料支援一次寫入,多次讀取。對於已經形成的資料的更新不支援。
    • 資料不進行本地快取(檔案很大,且順序讀沒有區域性性)
    • 任何一臺伺服器都有可能失效,需要透過大量的資料複製使得效能不會受到大的影響。
    • 使用者細分特徵建模
    • 個性化廣告推薦
    • 智慧儀器推薦
  4. hadoop實際應用:

    Hadoop+HBase建立NoSQL分散式資料庫應用

    Flume+Hadoop+Hive建立離線日誌分析系統

    Flume+Logstash+Kafka+Spark Streaming進行實時日誌處理分析

     

    酷狗音樂的大資料平臺

    京東的智慧供應鏈預測系統 

    說明:整理於網路

    http://www.cnblogs.com/zhangs1986/p/6528227.html

    http://blog.sina.com.cn/s/blog_687194cd01017lgu.html

     

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31383567/viewspace-2144263/,如需轉載,請註明出處,否則將追究法律責任。

相關文章