一套用來處理海量資料的軟體工具應運而生,這就是大資料!
換個角度說,大資料是:
1 、有海量的資料
2 、有對海量資料進行挖掘的需求
3 、有對海量資料進行挖掘的軟體工具( hadoop 、 spark 、 storm 、 flink 、 tez 、 impala...... )
大資料在現實生活中的具體應用
電商推薦系統:基於海量的瀏覽行為、購物行為資料,進行大量的演算法模型的運算,得出各類推薦結論,以供電商網站頁面來為使用者進行商品推薦。
精準廣告推送系統:基於海量的網際網路使用者的各類資料,統計分析,進行使用者畫像(得到使用者的各種屬性標籤),然後可以為廣告主進行有針對性的精準的廣告投放。
2 、那什麼是 hadoop 呢?
hadoop 中有 3 個核心元件:
分散式檔案系統:HDFS —— 實現將檔案分散式儲存在很多的伺服器上
分散式運算程式設計框架:MAPREDUCE —— 實現在很多機器上分散式並行運算
分散式資源排程平臺:YARN —— 幫使用者排程大量的 mapreduce 程式,併合理分配運算資源
3 、最後來說一下 hdfs 整體執行機制
hdfs :分散式檔案系統
hdfs 有著檔案系統共同的特徵:
1 、有目錄結構,頂層目錄是: /
2 、系統中存放的就是檔案
3 、系統可以提供對檔案的:建立、刪除、修改、檢視、移動等功能
hdfs 跟普通的單機檔案系統有區別:
1 、單機檔案系統中存放的檔案,是在一臺機器的作業系統中
2 、 hdfs 的檔案系統會橫跨 N 多的機器
3 、單機檔案系統中存放的檔案,是在一臺機器的磁碟上
4 、 hdfs 檔案系統中存放的檔案,是落在 n 多機器的本地單機檔案系統中( hdfs 是一個基於 linux 本地檔案系統之上的檔案系統)
hdfs 的工作機制:
1 、客戶把一個檔案存入 hdfs ,其實 hdfs 會把這個檔案切塊後,分散儲存在 N 臺 linux 機器系統中(負責儲存檔案塊的角色: data node ) < 準確來說:切塊的行為是由客戶端決定的 >
2 、一旦檔案被切塊儲存,那麼, hdfs 中就必須有一個機制,來記錄使用者的每一個檔案的切塊資訊,及每一塊的具體儲存機器(負責記錄塊資訊的角色是: name node )
3 、為了保證資料的安全性, hdfs 可以將每一個檔案塊在叢集中存放多個副本(到底存幾個副本,是由當時存入該檔案的客戶端指定的)
綜述:一個hdfs 系統,由一臺執行了 namenode 的伺服器,和 N 臺執行了 datanode 的伺服器組成!
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70015517/viewspace-2877218/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 海量資料處理
- 海量資料處理2
- 海量資料的併發處理
- 我的《海量資料處理與大資料技術實戰》出版啦!大資料
- 傳統的資料處理方式能否應對大資料?大資料
- Avast 為資料收集政策辯護:這就是反病毒軟體的運作方式AST
- 超3萬億資料實時分析,JCHDB助力海量資料處理
- 快手關於海量模型資料處理的實踐模型
- 剖析大資料平臺的資料處理大資料
- 開源軟體在地圖資料處理中的應用地圖
- N道大資料海量資訊處理 演算法面試集錦大資料演算法面試
- 海量資料處理利器 Roaring BitMap 原理介紹
- Jtti:怎樣正確處理Redis中的海量資料JttiRedis
- 分享Hadoop處理大資料工具及優勢Hadoop大資料
- 做資料分析,軟體工具少不了,好用的資料分析軟體工具
- 大資料處理的基本流程大資料
- 淺析大資料研究常用的軟體工具大資料
- java大資料處理:如何使用Java技術實現高效的大資料處理Java大資料
- 大資料常用處理框架大資料框架
- 功能強大的核磁資料處理軟體:MestReNova mac /win下載Mac
- 五十種大資料分析工具和軟體大資料
- 大資料處理的關鍵技術及應用大資料
- 以及異構資料來源之間的資料傳輸於一體的一站式的資料處理平臺。
- Python資料處理(二):處理 Excel 資料PythonExcel
- 大資料行業常用的軟體工具有哪些?大資料行業
- 怎麼處理ERP體系軟體資料的安全問題
- 大資料學習之Hadoop如何高效處理大資料大資料Hadoop
- 使用記憶體NewSQL資料平臺來處理實時資料流的三個好處記憶體SQL
- JavaScript 資料處理 - 運算元組JavaScript
- Python資料處理(一):處理 JSON、XML、CSV 三種格式資料PythonJSONXML
- 鐳射雷達常用的資料處理軟體推薦
- 五十種大資料分析工具和軟體(2)大資料
- 資料處理
- 有哪些大資料處理工具?大資料
- mysql,sqlserver資料庫單表資料過大的處理方式MySqlServer資料庫
- 大資料平臺之大資料處理系統的架構大資料架構
- 海量資料處理問題知識點複習手冊
- 原來大資料 Hadoop 是這樣儲存資料的大資料Hadoop