WebHDFS :通過Web訪問Hadoop分散式檔案系統 (HDFS)的開源工具

banq發表於2022-01-27

Hadoop是一個框架,可為您提供任何型別的資料儲存,並允許您在商品硬體叢集上執行計算。許多機構使用 Hadoop 分散式檔案系統 (HDFS)作為大資料專案的戰略儲存平臺,因為它具有容錯性、高並行化和海量儲存能力。

WebHDFS 是一種定義公共 HTTP REST API 的協議,因此您可以通過瀏覽器訪問它。WebHDFS 保持原生 Hadoop 協議提供的安全性,並使用並行性來提高吞吐量。

MATLABWebHDFS 介面允許您通過 REST API 處理儲存在 Hadoop 中的檔案和資料夾。您可以執行常見的操作,例如讀取、寫入、上傳和下載檔案。

WebHDFS 是對在 MATLAB 中訪問和處理 Hadoop 資料的其他方式(例如 Hive 或 Spark)的補充,這可能更適合在大型資料集中進行操作。

WebHDFS 是一種定義公共 HTTP REST API 的協議,該 API 允許客戶端通過 Web 訪問 Hadoop 分散式檔案系統 (HDFS)。它保留了本機 Hadoop 協議提供的安全性並使用並行性,以獲得更好的吞吐量。要使用此工具箱,需要在 Hadoop伺服器中啟用 webhdfs 功能。

該工具箱提供了一組功能,使使用者能夠通過REST API直接處理儲存在 Hadoop 中的檔案和資料夾,並執行常見操作,例如讀取、寫入、上傳和下載檔案。

 

什麼時候應該使用 WebHDFS?

使用 Hadoop 檔案時,WebHDFS 不是唯一的替代方案,您可能需要根據手頭的任務考慮其他替代方案。

這些工具可能更適合對大型資料集進行分析,而 webhdfs 介面可能是執行小型操作的更好工具,因為資料需要通過 Internet 來回傳輸。

點選標題Github

相關文章