1. 如果Map和reduce的輸出不一致,需要顯示的設定Map的輸出,沒有根據引數進行推導的原因是型別擦除
combiner是在copy資料到機器之前可以進行的一些資料的合併,這和資料有關,不是所有的任務都可以
進行combiner過程。
2. Hadoop 有兩套API,一般來說用舊的就只能全部用舊的,用新的話就只能用新的,不能混用,不然會出現各種
錯誤。
3.InputSampler的問題,改變reduce的個數會影響結果的輸出,報 split point are out of order 。這個問題是
因為取樣之後,樣本不均勻,導致選取的split point 中有相等的,然後報了這個錯誤,通過查詢原始碼發現,並且
把函式展開之後除錯,特別困難。這種情況下只能是減少reduce的個數,這個問題只和資料有關,和其它條件沒有
關係。