換個角度說，大資料是：

1 、有海量的資料

2 、有對海量資料進行挖掘的需求

3 、有對海量資料進行挖掘的軟體工具（ hadoop 、 spark 、 storm 、 flink 、 tez 、 impala...... ）

大資料在現實生活中的具體應用

電商推薦系統：基於海量的瀏覽行為、購物行為資料，進行大量的演算法模型的運算，得出各類推薦結論，以供電商網站頁面來為使用者進行商品推薦。

精準廣告推送系統：基於海量的網際網路使用者的各類資料，統計分析，進行使用者畫像（得到使用者的各種屬性標籤），然後可以為廣告主進行有針對性的精準的廣告投放。

2 、那什麼是 hadoop 呢？

hadoop 中有 3 個核心元件：

分散式檔案系統：HDFS —— 實現將檔案分散式儲存在很多的伺服器上

分散式運算程式設計框架：MAPREDUCE —— 實現在很多機器上分散式並行運算

分散式資源排程平臺：YARN —— 幫使用者排程大量的 mapreduce 程式，併合理分配運算資源

3 、最後來說一下 hdfs 整體執行機制

hdfs ：分散式檔案系統

hdfs 有著檔案系統共同的特徵：

2 、系統中存放的就是檔案

3 、系統可以提供對檔案的：建立、刪除、修改、檢視、移動等功能

hdfs 跟普通的單機檔案系統有區別：

1 、單機檔案系統中存放的檔案，是在一臺機器的作業系統中

2 、 hdfs 的檔案系統會橫跨 N 多的機器

3 、單機檔案系統中存放的檔案，是在一臺機器的磁碟上

4 、 hdfs 檔案系統中存放的檔案，是落在 n 多機器的本地單機檔案系統中（ hdfs 是一個基於 linux 本地檔案系統之上的檔案系統）

hdfs 的工作機制：

1 、客戶把一個檔案存入 hdfs ，其實 hdfs 會把這個檔案切塊後，分散儲存在 N 臺 linux 機器系統中（負責儲存檔案塊的角色： data node ） < 準確來說：切塊的行為是由客戶端決定的 >

2 、一旦檔案被切塊儲存，那麼， hdfs 中就必須有一個機制，來記錄使用者的每一個檔案的切塊資訊，及每一塊的具體儲存機器（負責記錄塊資訊的角色是： name node ）

3 、為了保證資料的安全性， hdfs 可以將每一個檔案塊在叢集中存放多個副本（到底存幾個副本，是由當時存入該檔案的客戶端指定的）

綜述：一個hdfs 系統，由一臺執行了 namenode 的伺服器，和 N 臺執行了 datanode 的伺服器組成！

一套用來處理海量資料的軟體工具應運而生，這就是大資料！

相關文章