在Linux中呼叫MapReduce對檔案中各個單詞出現次數進行統計
一、安裝Linux
一般來說,如果要做伺服器,我們選擇CentOS或者Ubuntu Server;如果做桌面系統,我們選擇Ubuntu Desktop。但是在學習Hadoop方面,雖然兩個系統沒有多大區別,但是個人在學習生活中常用Ubuntu,所以本實驗採用Ubuntu Kylin版本。相關下載檔案可以從參考資料[1]中獲取。
二、準備工作
1.建立Hadoop賬戶
1.首先按 ctrl+alt+t 開啟終端視窗,輸入如下命令建立新使用者 :
sudo useradd -m hadoop -s /bin/bash
sudo useradd -m hadoop -s /bin/bash
這條命令建立了可以登陸的 hadoop 使用者,並使用 /bin/bash 作為 shell。
2.設定hadoop密碼 :
sudo passwd hadoop
sudo passwd hadoop
3.為hadoop使用者增加管理員許可權
sudo adduser hadoop sudo
sudo adduser hadoop sudo
最後登出當前使用者(點選螢幕右上角的齒輪,選擇登出),返回登陸介面。在登陸介面中選擇剛建立的 hadoop 使用者進行登陸。
4.更新 apt
用 hadoop 使用者登入後,先更新一下 apt,後續將使用 apt 安裝軟體,如果沒更新可能有一些軟體安裝不了。按 ctrl+alt+t 開啟終端視窗,執行如下命令:
sudo apt-get update
5.安裝vim
後續需要更改一些配置檔案,這裡採用的是 vim(vi增強版,基本用法相同),相對於vi更有辨識度,編輯起來更好用。
sudo apt-get install vim
安裝軟體時若需要確認,在提示處輸入 y 即可。
在這裡插入圖片描述
6.配置SSH
叢集、單節點模式都需要用到 SSH 登陸(類似於遠端登陸,你可以登入某臺 Linux 主機,並且在上面執行命令),Ubuntu 預設已安裝了 SSH client,此外還需要安裝 SSH server
sudo apt-get install openssh-server
安裝後,可以使用如下命令登陸本機:
ssh localhost
此時會有如下提示(SSH首次登陸提示),輸入 yes 。然後按提示輸入密碼 hadoop,這樣就登陸到本機了。
但這樣登陸是需要每次輸入密碼的,我們需要配置成SSH無密碼登陸比較方便。
首先退出剛才的 ssh,就回到了我們原先的終端視窗,然後利用 ssh-keygen 生成金鑰,並將金鑰加入到授權中:
exit # 退出剛才的 ssh localhost
cd ~/.ssh/ # 若沒有該目錄,請先執行一次ssh localhost
ssh-keygen -t rsa # 會有提示,都按回車就可以
cat ./id_rsa.pub >> ./authorized_keys # 加入授權
此時再用 ssh localhost 命令,無需輸入密碼就可以直接登陸了,如下圖所示。
三.安裝Java環境
1.安裝JDK
Hadoop3.1.3需要JDK版本在1.8及以上。需要按照下面步驟來自己手動安裝JDK1.8。
我們已經把JDK1.8的安裝包jdk-8u162-linux-x64.tar.gz放在了百度雲盤,可以點選這裡到百度雲盤下載(提取碼:lnwl)。
接下來在Linux命令列介面中,執行如下Shell命令(注意:當前登入使用者名稱是hadoop):
cd /usr/lib
sudo mkdir jvm #建立/usr/lib/jvm目錄用來存放JDK檔案
cd ~ #進入hadoop使用者的主目錄
cd Downloads #注意區分大小寫字母,剛才已經通過FTP軟體把JDK安裝包jdk-8u162-linux-x64.tar.gz上傳到該目錄下
sudo tar -zxvf ./jdk-8u162-linux-x64.tar.gz -C /usr/lib/jvm #把JDK檔案解壓到/usr/lib/jvm目錄下
2.驗證JDK安裝情況
JDK檔案解壓縮以後,可以執行如下命令到/usr/lib/jvm目錄檢視一下:
cd /usr/lib/jvm
ls
3.設定JAVA壞境變數
cd ~
vim ~/.bashrc
通過vim編輯器。開啟環境變數配置.bashrc檔案,在檔案開頭新增如下幾行內容:
(vim編輯器中,按“i”進去編輯模式,按“:wq”儲存並返回終端)
export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_162
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
儲存.bashrc檔案並退出vim編輯器。然後,繼續執行如下命令讓.bashrc檔案的配置立即生效:
source ~/.bashrc
驗證安裝情況
java -version
若返回如下資訊,則代表JAVA環境配置成功
四.安裝Hadoop
Hadoop安裝檔案,可以到Hadoop官網下載hadoop-3.1.3.tar.gz。
也可以直接點選這裡從百度雲盤下載軟體(提取碼:lnwl)
我們選擇將 Hadoop 安裝至 /usr/local/ 中:
sudo tar -zxf ~/下載/hadoop-3.1.3.tar.gz -C /usr/local # 解壓到/usr/local中
cd /usr/local/
sudo mv ./hadoop-3.1.3/ ./hadoop # 將資料夾名改為hadoop
sudo chown -R hadoop ./hadoop # 修改檔案許可權
Hadoop 解壓後即可使用。輸入如下命令來檢查 Hadoop 是否可用,成功則會顯示 Hadoop 版本資訊:
cd /usr/local/hadoop
./bin/hadoop version
五.Hadoop偽分散式配置
1.修改配置檔案
Hadoop 的配置檔案位於 /usr/local/hadoop/etc/hadoop/ 中,偽分散式需要修改2個配置檔案 core-site.xml 和 hdfs-site.xml 。Hadoop的配置檔案是 xml 格式,每個配置以宣告 property 的 name 和 value 的方式來實現。
cd /usr/local/hadoop/etc/hadoop/
在進行修改配置檔案前,需要建立相應的資料夾進行存放,以防後續操作無法啟動Hadoop
sudo mkdir /usr/local/hadoop/tmp
sudo mkdir /usr/local/hadoop/tmp/dfs/name
sudo mkdir /usr/local/hadoop/tmp/dfs/data
完成前面的工作後,開始配置core-site.xml 和 hdfs-site.xml。首先對core-site.xml進行修改
vim core-site.xml
在配置檔案中找到下面這個標籤對
<configuration>
</configuration>
修改為下面配置:
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/local/hadoop/tmp</value>
<description>Abase for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
同理修改hdfs-site.xml:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/data</value>
</property>
</configuration>
2.格式化 NameNode
2.格式化 NameNode
配置完core-site.xml 和 hdfs-site.xml,我們需要對NameNode進行格式化:
cd /usr/local/hadoop
./bin/hdfs namenode -format
成功的話,會看到 “successfully formatted” 的提示,具體返回資訊類似如下:
2020-01-08 15:31:31,560 INFO namenode.NameNode: STARTUP_MSG:
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG: host = hadoop/127.0.1.1
STARTUP_MSG: args = [-format]
STARTUP_MSG: version = 3.1.3
*************************************************************/
......
2020-01-08 15:31:35,677 INFO common.Storage: Storage directory /usr/local/hadoop/tmp/dfs/name **has been successfully formatted**.
2020-01-08 15:31:35,700 INFO namenode.FSImageFormatProtobuf: Saving image file /usr/local/hadoop/tmp/dfs/name/current/fsimage.ckpt_0000000000000000000 using no compression
2020-01-08 15:31:35,770 INFO namenode.FSImageFormatProtobuf: Image file /usr/local/hadoop/tmp/dfs/name/current/fsimage.ckpt_0000000000000000000 of size 393 bytes saved in 0 seconds .
2020-01-08 15:31:35,810 INFO namenode.NNStorageRetentionManager: Going to retain 1 images with txid >= 0
2020-01-08 15:31:35,816 INFO namenode.FSImage: FSImageSaver clean checkpoint: txid = 0 when meet shutdown.
2020-01-08 15:31:35,816 INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at hadoop/127.0.1.1
*************************************************************/
3.開啟NameNode和DataNode守護程式
cd /usr/local/hadoop
./sbin/start-dfs.sh #start-dfs.sh是個完整的可執行檔案,中間沒有空格
若出現如下SSH提示,輸入yes即可。
4.校驗安裝
當程式啟動完成後,可以通過命令 jps 來判斷是否成功啟動,若成功啟動則會列出如下程式: “NameNode”、”DataNode” 和 “SecondaryNameNode”。
成功啟動後,可以訪問 Web 介面 http://localhost:50070檢視 NameNode 和 Datanode 資訊,還可以線上檢視 HDFS 中的檔案。
五.呼叫MapReduce執行WordCount對單詞進行計數
1.準備工作
首先,準備一個不少於10000萬單詞的文字檔案,內容不限,可從各大英語文獻網下載,將這個檔案放置於hadoop資料夾中,以便實驗。接著,將實驗的文字檔案上傳到HDFS中(請確保Hadoop為開啟狀態)
./bin/hdfs dfs -put /usr/local/hadoop/demo.txt input
操作完成後呼叫ls命令檢視檔案上傳情況
./bin/hdfs dfs –ls input
上傳成功後可以在檔案中看到實驗檔案完成上傳後,我們需要安裝Eclipse。我們利用Ubuntu左側邊欄自帶的軟體中心安裝軟體,在Ubuntu左側邊欄開啟軟體中心,在搜尋框輸入Eclipse找到對應檔案下載即可。
下載後執行如下命令,將 Eclipse 安裝至 /usr/lib 目錄中:
sudo tar -zxf ~/下載/eclipse-java-mars-1-linux-gtk*.tar.gz -C /usr/lib
圖中eclipse-java-mars-1-linux-gtk*.tar.gz為檔名,按實際情況輸入
安裝完Eclipse,我們還需要安裝 hadoop-eclipse-plugin,用於在 Eclipse 上編譯和執行 MapReduce 程式,可下載 Github 上的hadoop2x-eclipse-plugin (備用下載地址:http://pan.baidu.com/s/1i4ikIoP)。
下載後,將 release 中的 hadoop-eclipse-kepler-plugin-2.6.0.jar (還提供了 2.2.0 和 2.4.1 版本)複製到 Eclipse 安裝目錄的 plugins 資料夾中,執行 eclipse -clean 重啟 Eclipse 即可(新增外掛後只需要執行一次該命令,以後按照正常方式啟動就行了)。
unzip -qo ~/下載/hadoop2x-eclipse-plugin-master.zip -d ~/下載 # 解壓到 ~/下載 中
sudo cp ~/下載/hadoop2x-eclipse-plugin-master/release/hadoop-eclipse-plugin-2.6.0.jar /usr/lib/eclipse/plugins/ # 複製到 eclipse 安裝目錄的 plugins 目錄下
/usr/lib/eclipse/eclipse -clean # 新增外掛後需要用這種方式使外掛生效
2.配置 Hadoop-Eclipse-Plugin
當執行完最後一條命令後,系統會自動開啟Eclipse,開啟後我們看到左邊的Project Explorer裡出現了DFS Locations
接下來我們對外掛進行進一步配置。
第一步:選擇 Window 選單下的 Preference。
在窗體的左側找到 Hadoop Map/Reduce 選項,填入Hadoop 的安裝地址/usr/local/hadoop
第二步:切換 Map/Reduce 開發檢視,選擇 Window 選單下選擇 Open Perspective -> Other,選擇 Map/Reduce 選項即可進行切換。
第三步:建立與 Hadoop 叢集的連線,點選 Eclipse軟體右下角的 Map/Reduce Locations 皮膚,在皮膚中單擊右鍵,選擇 New Hadoop Location。
在彈出來的 General 選項皮膚中,General 的設定要與 Hadoop 的配置一致。由於我使用的Hadoop偽分散式配置,設定 fs.defaultFS 為 hdfs://localhost:9000,所以此處DFS Master 的 Port 要改為 9000。Map/Reduce(V2) Master 的 Port 用預設的即可,Location Name 隨意填寫。
配置好後,我們就能在左側的Project Explorer中找到我們的實驗檔案。
3.建立MapReduce專案
首先,點選File選單,選擇New——Project選擇Map/Reduce Project,點選Next
填寫專案名稱,此處用本實驗WordCount作為專案名。填寫完後點選Finish即可。接下來在左側的Project Explorer中找到剛剛建好的WordCount資料夾,右擊src選擇New-Class建立一個類。在彈出的class視窗中填入相應資訊。 Package 處填寫 org.apache.hadoop.examples;在 Name 處填寫 WordCount
4.WordCount統計
Class建立完成後,將下面程式碼複製進剛建立好的WordCount.java檔案中
package org.apache.hadoop.examples;
import java.io.IOException;
import java.util.Iterator;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;
public class WordCount {
public WordCount() {
}
public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();
//String[] otherArgs = (new GenericOptionsParser(conf, args)).getRemainingArgs();
String[] otherArgs=new String[]{"input","output"};
if(otherArgs.length < 2) {
System.err.println("Usage: wordcount <in> [<in>...] <out>");
System.exit(2);
}
Job job = Job.getInstance(conf, "word count");
job.setJarByClass(WordCount.class);
job.setMapperClass(WordCount.TokenizerMapper.class);
job.setCombinerClass(WordCount.IntSumReducer.class);
job.setReducerClass(WordCount.IntSumReducer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
for(int i = 0; i < otherArgs.length - 1; ++i) {
FileInputFormat.addInputPath(job, new Path(otherArgs[i]));
}
FileOutputFormat.setOutputPath(job, new Path(otherArgs[otherArgs.length - 1]));
System.exit(job.waitForCompletion(true)?0:1);
}
public static class IntSumReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
private IntWritable result = new IntWritable();
public IntSumReducer() {
}
public void reduce(Text key, Iterable<IntWritable> values, Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException {
int sum = 0;
IntWritable val;
for(Iterator<IntWritable> i$ = values.iterator(); i$.hasNext(); sum += val.get()) {
val = i$.next();
}
this.result.set(sum);
context.write(key, this.result);
}
}
public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable> {
private static final IntWritable one = new IntWritable(1);
private Text word = new Text();
public TokenizerMapper() {
}
public void map(Object key, Text value, Mapper<Object, Text, Text, IntWritable>.Context context) throws IOException, InterruptedException {
StringTokenizer itr = new StringTokenizer(value.toString());
while(itr.hasMoreTokens()) {
this.word.set(itr.nextToken());
context.write(this.word, one);
}
}
}
}
在執行 MapReduce 程式前,需要將 /usr/local/hadoop/etc/hadoop 中將有修改過的配置檔案(如偽分散式需要 core-site.xml 和 hdfs-site.xml),以及 log4j.properties 複製到 WordCount 專案下的 src 資料夾(~/workspace/WordCount/src)中,在終端中輸入下列幾行內容:
cp /usr/local/hadoop/etc/hadoop/core-site.xml ~/workspace/WordCount/src
cp /usr/local/hadoop/etc/hadoop/hdfs-site.xml ~/workspace/WordCount/src
cp /usr/local/hadoop/etc/hadoop/log4j.properties ~/workspace/WordCount/src
複製完成後,務必右鍵點選 WordCount 選擇 refresh 進行重新整理(不會自動重新整理,需要手動重新整理),可以看到檔案結構如下所示:完成上面的工作後,在上方找到啟動按鈕,點選Run As——Run on Hadoop啟動MapReduce程式
不過由於沒有指定引數,執行時會提示 “Usage: wordcount “,需要通過Eclipse設定一下執行引數。
右鍵點選剛建立的 WordCount.java,選擇 Run As -> Run Configurations,在此處可以設定執行時的相關引數(如果 Java Application 下面沒有 WordCount,那麼需要先雙擊 Java Application)。切換到 “Arguments” 欄,在 Program arguments 處填寫 “input output” 就可以了。
當程式執行完畢後,我們就可以在左側output——part-r-00000這個檔案中看到輸出結果了
也可以通過輸入下面命令進行檢視
cd /usr/local/haddop
./bin/hdfs dfs -cat output/part-r-00000
輸入下面命令,可以把HDFS中檔案下載到本地檔案系統中的“/home/hadoop/下載/”這個目錄下
./bin/hdfs dfs -get output/part-r-00000 /home/hadoop/下載
六.參考材料
[1] http://dblab.xmu.edu.cn/blog/285/
[2] http://dblab.xmu.edu.cn/blog/290-2/
[3] http://dblab.xmu.edu.cn/blog/hadoop-build-project-using-eclipse/
相關文章
- **呼叫MapReduce對檔案中各個單詞出現的次數進行統計**
- 呼叫MapReduce對檔案中單詞出現次數進行統計
- 在linux系統中對檔案進行分割Linux
- 統計檔案中出現的單詞次數
- Linux下如何對目錄中的檔案進行統計Linux
- 統計陣列中各數字(元素)出現的次數陣列
- matlab之對元素出現的次數進行統計Matlab
- Matlab 統計陣列中各數字(元素)出現的次數Matlab陣列
- 【轉】matlab之對元素出現的次數進行統計Matlab
- 利用HashMap統計字串各個字元出現的次數HashMap字串字元
- centos下對檔案某些特定字串分組統計出現次數CentOS字串
- 統計陣列元素中每個元素出現的次數陣列
- linux統計檔案個數及程式碼總行數Linux
- 在JS中統計函式執行次數JS函式
- 統計英文名著中單詞出現頻率
- 在Linux中,如何進行備份或歸檔檔案(tar 命令)?Linux
- samtools flagstat引數對比對的bam檔案進行統計
- Playwright使用Typescript實現在測試case檔案中呼叫另一個檔案中的方法TypeScript
- 在Linux系統中如何刪除一個檔案?Linux
- 如何使用Tar命令在Linux系統中解壓各種檔案格式Linux
- 詞頻統計mapreduce
- 在Linux中,如何將二進位制檔案新增到 $PATH 變數中?Linux變數
- matlab如何統計矩陣各元素的出現次數Matlab矩陣
- 利用python內建函式,快速統計單詞在文字中出現的次數Python函式
- 如何在Linux中進行檔案切割操作?Linux
- 在Linux中,如何在Linux中進行系統映象管理?Linux
- 使用scp命令在多個Linux系統間進行檔案複製Linux
- 在Linux中,如何實現檔案系統的快照和克隆?Linux
- 在Linux中,如何進行系統故障排查?Linux
- 在Linux中,如何進行系統安全加固?Linux
- Java小程式--統計指定字串中字元 ‘a’ 出現的次數Java字串字元
- linux 中根據檔案的大小進行檔案的查詢Linux
- LVM中對基於xfs的檔案系統進行擴容LVM
- 在Linux中,檔案系統概念是什麼?Linux
- 在Linux中,有哪些系統日誌檔案?Linux
- ELF檔案中的各個節區
- 『現學現忘』Git基礎 — 19、在Git中進行忽略檔案操作Git
- 讀取檔案,每行不超過100個字元,輸出每行中字母最多的單詞的字母數字元