一套用來處理海量資料的軟體工具應運而生,這就是大資料!

wbhljpk99發表於2022-03-20

換個角度說,大資料是:

1 、有海量的資料

2 、有對海量資料進行挖掘的需求

3 、有對海量資料進行挖掘的軟體工具( hadoop spark storm flink tez impala......

大資料在現實生活中的具體應用

電商推薦系統:基於海量的瀏覽行為、購物行為資料,進行大量的演算法模型的運算,得出各類推薦結論,以供電商網站頁面來為使用者進行商品推薦。

精準廣告推送系統:基於海量的網際網路使用者的各類資料,統計分析,進行使用者畫像(得到使用者的各種屬性標籤),然後可以為廣告主進行有針對性的精準的廣告投放。

2 、那什麼是 hadoop 呢?

hadoop 中有 3 個核心元件:

分散式檔案系統:HDFS  —— 實現將檔案分散式儲存在很多的伺服器上

分散式運算程式設計框架:MAPREDUCE  —— 實現在很多機器上分散式並行運算

分散式資源排程平臺:YARN  —— 幫使用者排程大量的 mapreduce 程式,併合理分配運算資源

3 、最後來說一下 hdfs 整體執行機制

hdfs :分散式檔案系統

hdfs 有著檔案系統共同的特徵:

1 、有目錄結構,頂層目錄是:   /

2 、系統中存放的就是檔案

3 、系統可以提供對檔案的:建立、刪除、修改、檢視、移動等功能

hdfs 跟普通的單機檔案系統有區別:

1 、單機檔案系統中存放的檔案,是在一臺機器的作業系統中

2 hdfs 的檔案系統會橫跨 N 多的機器

3 、單機檔案系統中存放的檔案,是在一臺機器的磁碟上

4 hdfs 檔案系統中存放的檔案,是落在 n 多機器的本地單機檔案系統中( hdfs 是一個基於 linux 本地檔案系統之上的檔案系統)

hdfs 的工作機制:

1 、客戶把一個檔案存入 hdfs ,其實 hdfs 會把這個檔案切塊後,分散儲存在 N linux 機器系統中(負責儲存檔案塊的角色: data node < 準確來說:切塊的行為是由客戶端決定的 >

2 、一旦檔案被切塊儲存,那麼, hdfs 中就必須有一個機制,來記錄使用者的每一個檔案的切塊資訊,及每一塊的具體儲存機器(負責記錄塊資訊的角色是: name node

3 、為了保證資料的安全性, hdfs 可以將每一個檔案塊在叢集中存放多個副本(到底存幾個副本,是由當時存入該檔案的客戶端指定的)

綜述:一個hdfs 系統,由一臺執行了 namenode 的伺服器,和 N 臺執行了 datanode 的伺服器組成!


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70015517/viewspace-2877218/,如需轉載,請註明出處,否則將追究法律責任。

相關文章