Hadoop學習筆記之TeraSort修改後輸出翻倍異常

ci1652315發表於2016-04-02

原文網址 : https://blog.csdn.net/ci1652315/article/details/100619833

具體問題見StackOverFlow上的描述：

http://stackoverflow.com/questions/36326068/a-strange-output-in-mapreduce-of-hadoop

簡而言之，就是在修改了ＴeraInputFormat.java之後，執行TeraSort所得到的輸出資料不同程度的翻倍，剛開始並沒有什麼頭緒，並且把取樣的執行緒和Ｍap的讀入＜key, value＞搞混了，邏輯不清晰，導致很多時間都在無關緊要的地方反覆除錯．

其實應該可以想到一種辦法，就是在MapTask裡設斷點觀察，但不知道是自己懶還是因為對隱藏在深處的ＭapTask有一種畏懼心裡，起初我並沒有仔細進去看，後來在ＭapTask裡ＲecordReader部分的nextKeyValue()方法裡設定變數計數並輸出，來觀察每次split所獲取的記錄條數，結果發現，我的每個split都完整的獲取了整個（注意是整個輸入檔案）而不是一個split大小的記錄，所以輸出也隨著翻倍了．

那麼關鍵點找出來了，問題出在哪裡呢？ＭapTask部分是Ｈadoop預設繫結的，TeraSort並沒有重寫，所以這部分不可能出錯；TeraInputFormat的前半部分是取樣部分，問題不可能出在這裡；後半部分的RecordReader的initialize部分和修改前基本無變化，那錯誤的部分一定是在nextKeyValue()部分了，於是一行一行分析，最終鎖定了這一句：

newSize = in.readLine(record);

很普通的讀取一行記錄，那有沒有可能是readLine()這個方法對長度沒有限定呢？雖然nextKeyValue()方法是split物件呼叫的，但會不會readLine()並不理會你每個split塊的大小而是一股氣往下讀取直到讀到檔案末尾呢？

為了驗證這個可能，我新增了全域性變數:

long recordLen;
//將下面這句加在nextKeyValue()中
recordLen += newSize;

來記錄讀取記錄的總長度,，並設定當

if(recordLen ＞＝ split.getLength)｛
    return false;
}

修改後打jar包放到節點上執行，結果正確！！！

轉載於:https://my.oschina.net/whulyx/blog/651874

swoft 學習筆記之異常處理
2019-08-13
筆記
java學習筆記（異常）
2020-12-12
Java筆記
C++ 學習筆記之——輸入和輸出
2018-10-29
C++筆記
Python 3 學習筆記之——錯誤和異常
2018-10-28
Python筆記
大資料之 Hadoop學習筆記
2018-12-14
大資料Hadoop筆記
Golang 學習筆記八錯誤異常
2019-01-20
Golang筆記
Hadoop學習筆記——————1、Hadoop概述
2018-07-16
Hadoop筆記
Hadoop學習筆記—HDFS
2021-04-03
Hadoop筆記
Hadoop學習筆記—Yarn
2021-04-10
Hadoop筆記Yarn
SpringMVC學習筆記10-異常處理
2020-12-16
SpringMVC筆記
01_Numpy學習筆記（下）：輸入和輸出
2020-11-23
筆記
kotlin學習筆記-異常好玩的list集合總結
2018-07-16
Kotlin筆記
Solidity語言學習筆記————24、輸入輸出引數
2018-07-02
Solid筆記
JAVA學習之異常處理
2020-09-01
Java
Java 筆記《異常》
2019-04-03
Java筆記
筆記：異常處理之report與render
2021-09-04
筆記
hadoop 偽分散式模式學習筆記
2018-10-16
Hadoop分散式模式筆記
hadoop基準測試_Hadoop TeraSort基準測試
2020-07-29
Hadoop
異常處理 - Go 學習記錄
2019-03-20
Go
吳恩達機器學習筆記 —— 16 異常點檢測
2018-07-31
吳恩達機器學習筆記
C#學習筆記---異常捕獲和變數運算子
2023-10-09
C#筆記變數
kissat的多輸出-學習與修改1
2024-09-11
大資料學習筆記之Hadoop安裝步驟詳解
2019-05-15
大資料筆記Hadoop
Python零基礎學習筆記（二十八）——異常處理
2019-01-25
Python筆記
Python學習之異常處理詳解
2020-04-10
Python
SpringMVC學習系列（10）之異常處理
2020-11-27
SpringMVC
mysql修改表欄位學習筆記
2018-07-25
MySql筆記
Django筆記三十一之全域性異常處理
2023-04-26
Django筆記
java異常處理筆記
2020-04-06
Java筆記
hadoop學習記錄
2024-07-20
Hadoop
TCP 學習筆記(三) 可靠傳輸
2022-11-24
TCP筆記
【學習筆記】關於Freemark程式碼輸出值的問題
2020-11-08
筆記
【機器學習】吳恩達機器學習中文版筆記：異常檢測（Anomaly Detection）
2018-05-03
機器學習吳恩達筆記
學習筆記之測試
2019-03-27
筆記
JS學習筆記之this指向
2018-05-10
JS筆記
flask學習筆記之blueprint
2018-06-07
Flask筆記
Swoft 學習筆記之配置
2019-08-11
筆記
學習筆記：DOM之appendChild
2020-10-22
筆記APP
node學習筆記之39
2020-04-17
筆記

Hadoop學習筆記之TeraSort修改後輸出翻倍異常

相關文章