hadoop遇到的問題(彙總)

張蘭雲發表於2013-07-25

1. 如果Map和reduce的輸出不一致,需要顯示的設定Map的輸出,沒有根據引數進行推導的原因是型別擦除

combiner是在copy資料到機器之前可以進行的一些資料的合併,這和資料有關,不是所有的任務都可以

進行combiner過程。

2. Hadoop 有兩套API,一般來說用舊的就只能全部用舊的,用新的話就只能用新的,不能混用,不然會出現各種

錯誤。

3.InputSampler的問題,改變reduce的個數會影響結果的輸出,報 split point are out of order 。這個問題是

因為取樣之後,樣本不均勻,導致選取的split point 中有相等的,然後報了這個錯誤,通過查詢原始碼發現,並且

把函式展開之後除錯,特別困難。這種情況下只能是減少reduce的個數,這個問題只和資料有關,和其它條件沒有

關係。

相關文章