Pig 的安裝與測試

呆呆笨笨的魚發表於2014-06-23

下載Pig連結: pig.apache.org

目前最新版本 0.12.1 ,我使用的版本是0.12.0

 

準備工作:

1.安裝Pig前,要安裝部署好Hadoop分散式叢集。

2.下載好pig,版本自選

3.安裝位置,我選擇的是Namenode主機

 

安裝步驟:

(一)   下載並解壓pig安裝包

 

(二)   編輯環境變數

1.       設定PATH,增加指向hadoop/bin

2.       這是PIG_CLASSPATH 環境變數

3.       設定PATH,增加指向pig/bin

4.       新增JAVA_HOME環境變數


編輯好後重新登陸,使得環境變數生效。

  

(三)   測試啟動grunt shell


 

執行一些命令列,檢測部署成功


 

 

測試Pig latin語句

常用語句:

  LOAD : 指出載入資料的方法

  FOREACH:逐行掃描進行某種處理

  FILTER:過濾行

  DUMP:把結果顯示到螢幕

  STORE:把結果儲存到檔案

 

通常書寫執行順序:

  LOAD ——〉FOREACH——〉STORE

 

測試檔案內容如下 :詞條組,詞條


 

Setp1. LOAD  格式化裝載資料

A =LOAD '/user/criss/in/pig_test.txt' USING PigStorage(',') as (code_group,work);


DUMP A;


 

Step2. FOREACH 求片語詞條數

B =FOREACH(GROUP A BY code_group) GENERATE group AS code_group,COUNT(A);



DUMP B;

 


Step3. 把結果儲存到檔案

STORE B INTO '/user/criss/out/pig_B_res.txt' USING PigStorage(' ');


 


關於更多的Pig語法:

可參考:http://www.cnblogs.com/siwei1988/archive/2012/08/06/2624912.html

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/28929558/viewspace-1191677/,如需轉載,請註明出處,否則將追究法律責任。

相關文章