Box-cox Transformation
背景
有很多時候我們需要把右偏(長尾)分佈的資料進行數值變換,將其變為接近正態分佈的形式,好使用統計工具。Box-cox的原理其實就是用一系列f(y;lambda)對y做變換嘗試,看看哪一個變換f(lambda)能夠使得Y'=f(Y)變成正態分佈,越正態越好。要注意,這裡的transformation是指特定的函式,要求函式是單調的,不能改變原有函式的順序。因此,對資料也有要求,即不能是負數的,否則偶次方的變換就不能用了。
方法
白色框框裡的變換才是關鍵,除以lambda和減1都只是簡單的平移和放縮,不能改變分佈的形狀。圖片來源
求解
百度百科裡面有詳細的求解過程。核心思想就是,將變換後的資料代入正態分佈的公式,然後求最大似然;然後比較不同lambda的最大似然值,用最高的作為lambda的解。固定後對所有數值做統一變換。雖然最大似然的值和lambda的取值不是線性關係,但是可以取樣一系列lambda,透過蒙特卡洛的方法來求解最好的lambda。