在Hadoop環境裡面統計西遊記文章的片語（hdfs實驗）

王小王-123發表於2020-09-28

原文網址 : https://blog.csdn.net/weixin_47723732/article/details/108858765

在Hadoop的環境裡面我們測試一個檔案，對西遊記這個書籍裡面的所有詞語，進行統計排序。hadoop包括兩個核心組成：HDFS：分散式檔案系統，儲存海量的資料MapReduce：並行處理框架，實現任務分解和排程。

hadoop執行機制

MapReduce工作原理

在這裡插入圖片描述

首先我們準備四個檔案，在自己Windows裡面已經寫好的，或者是從其他地方copy過來的（涉及一些引數和路徑的修改）

點選下載這四個參考檔案
前面兩檔案是實現我們的文章片語的分割處理和排序處理（Python檔案），後面的一個是執行檔案，最後一個是西遊記裡面的文章，這個裡面已經利用pycharm的jieba 庫做好的文字的處理，只有片語和空格，沒有標點符號和其他的東西。

在這裡插入圖片描述

準備：

首先開啟虛擬機器，啟動Hadoop

在這裡插入圖片描述
這樣就啟動成功了，有的時候我們很容易忽略這個，我的這臺機器配置了，開機自啟動，所以開啟虛擬機器就會自己啟動，但是如果沒有的話我們就需要利用下面的程式碼

start-all.sh

之後等待啟動OK，再去檢視即可

實驗過程

思路：

1.首先把檔案上傳到我們的虛擬機器home目錄，然後對其中三個檔案許可權進行修改。
2.修改run.sh 裡面的引數，Hadoop檔案路徑，Python檔案路徑。
3.上傳我們檔案到hdfs本地

實驗過程：

1.首先我們在home目錄裡面新建一個test1的資料夾，然後把這四個檔案拖到我們新建的這個資料夾裡面。然後我們去修改其中2個Python檔案的內容，一個sh的檔案路徑即可

whw@whw-hadoop:~/test1$ chmod 777 mapper.py 
whw@whw-hadoop:~/test1$ chmod 777 reduce.py 
whw@whw-hadoop:~/test1$ ll
總用量 1420
drwxr-xr-x  2 whw whw    4096 9月  25 23:44 ./
drwxr-xr-x 21 whw whw    4096 9月  28 22:02 ../
-rwxrwxrwx  1 whw whw     546 9月  25 23:44 mapper.py*
-rwxrwxrwx  1 whw whw    1038 9月  25 23:44 reduce.py*
-rwxrw-rw-  1 whw whw     275 9月  25 23:42 run.sh*
-rwxrw-rw-  1 whw whw 1431328 9月  24 21:45 xyj_stopwords.txt*
whw@whw-hadoop:~/test1$

2.然後我們再去本地的hdfs裡面建立一個test1的檔案

whw@whw-hadoop:~$ hdfs dfs -mkdir /test1
mkdir: `/test1': File exists
whw@whw-hadoop:~$

我這裡的檔案已經存在了，可以通過這個命令去驗證一下

hdfs dfs -ls /test1

然後把我們已經處理好一部分的西遊記檔案上傳到hdfs 本地檔案

hdfs dfs -copyFromLocal /home/whw/test1/xyj_stopwords.txt /test1/

注意copyFromLocal的大小寫，然後就是我們的這個檔案路徑，我們直接點選該檔案的屬性，複製路徑和檔名即可，再去終端貼上，最後一步就是把這個檔案放在那裡，我們放在本地的test1的資料夾下面，注意後面加了一個/，如果不加這個，就會給這個檔案重新命名了。

檢視

hdfs dfs -ls /test1/

hdfs dfs -cat /test1/xyj_stopwords.txt

在這裡插入圖片描述
3.修改run.sh

在這裡插入圖片描述
首先找到Hadoop的檔案路徑

sudo find / -name hadoop-stream*

在這裡插入圖片描述
修改完畢

注意由於我之前測試過一次，所以輸出檔案已經重複瞭如果去執行檔案的時候，發現以下頁面，我們只需要把之前的那個run.sh 裡面的那個輸出的result改成results即可！！

在這裡插入圖片描述

現在我們執行，但是必須在test終端開啟

./run.sh

在這裡插入圖片描述

我們可以在閒暇之餘，我們可以看看執行的過程，我們在我們的瀏覽器裡面輸入，回車即可

127.0.0.1:0880

也可以檢視我們Hadoop的配置以及其他引數

在這裡插入圖片描述
結果檢視

hdfs dfs -ls /st1/results

hdfs dfs -cat /test1/results/檔名

這裡的檔名是我們輸入第一條命令的時候會出現一個part檔案，把這個檔名名字複製貼上過來即可

在這裡插入圖片描述

最後注意關閉我們的Hadoop機器

stop-all.sh

每文一語

世界很大，總是會有很巧合的遇見！

Hadoop框架：HDFS高可用環境配置
2020-10-27
Hadoop框架
Hadoop大資料實戰系列文章之HDFS檔案系統
2020-11-06
Hadoop大資料
hadoop3.1.0 HDFS快速搭建偽分散式環境
2018-04-26
Hadoop分散式
阿里雲體驗實驗室教你如何《搭建Hadoop環境》
2020-08-31
阿里Hadoop
hadoop之旅5-idea通過maven搭建hdfs環境
2018-10-18
HadoopIdeaMaven
Hadoop面試題之HDFS
2021-12-23
Hadoop面試題
Python合集之Python開發環境在Windows系統裡面搭建
2020-10-24
Python開發環境Windows
Hadoop學習筆記—HDFS
2021-04-03
Hadoop筆記
Hadoop HDFS 設計隨想
2018-12-07
Hadoop
在ubuntun虛擬機器裡安裝goLang語言程式設計環境
2018-09-20
Ubuntu虛擬機Golang程式設計
Hadoop–HDFS
2018-12-20
Hadoop
作業系統實驗 & bochs 環境配置
2023-04-21
作業系統
在nodejs環境裡使用瀏覽器環境下的document物件
2019-05-31
NodeJS瀏覽器物件
學習筆記：openstack實驗環境安裝
2018-04-21
筆記
西遊記裡有多少妖怪？如何應對奇葩面試題？
2018-05-11
面試題
Hadoop 入門筆記—核心元件 HDFS
2021-11-19
Hadoop筆記元件
搭建Ansible實驗環境
2021-03-12
Hadoop HDFS(一)
2018-05-24
Hadoop
Hadoop HDFS（二）
2018-05-31
Hadoop
Hadoop 系列（四）—— Hadoop 開發環境搭建
2019-08-07
Hadoop開發環境
在Hadoop環境中，大資料儲存的技巧有哪些？
2021-10-09
Hadoop大資料
Hadoop2.7.5環境搭建
2018-10-09
Hadoop
Hadoop+hive環境搭建
2018-09-05
HadoopHive
day5 hadoop hdfs知識筆記
2018-10-22
Hadoop筆記
實驗報告1-熟悉C語言執行環境
2024-03-16
C語言
Hadoop的叢集環境部署說明
2018-10-12
Hadoop
史上最詳細的Hadoop環境搭建
2018-08-15
Hadoop
搭建本地執行Hadoop環境
2018-11-01
Hadoop
hadoop完全分散式環境搭建
2020-10-24
Hadoop分散式
Hadoop 基礎之搭建環境
2019-05-05
Hadoop
Hadoop環境搭建（二）分散式
2024-11-29
Hadoop分散式
【Cloud Computing】Hadoop環境安裝、基本命令及MapReduce字數統計程式
2021-11-28
CloudHadoop
HDFS 命令：用於管理HDFS的Hadoop Shell命令大全
2021-12-29
Hadoop
hadoop實戰4--(hdfs讀流程，hdfs寫流程，副本放置策略)
2019-02-22
Hadoop
【Hadoop】：Windows下使用IDEA搭建Hadoop開發環境
2020-12-29
HadoopWindowsIdea開發環境
mit6.828 實驗環境配置
2018-07-18
MIT
Hadoop自由實現伸縮節點詳細說明-Hadoop商業環境實戰
2018-12-19
Hadoop
Hadoop的HDFS架構入門
2022-01-25
Hadoop架構

在Hadoop環境裡面統計西遊記文章的片語（hdfs實驗）

相關文章