空間插值技術應用必讀論文---P. Goovaerts, Geostatistical approaches for incorporating elevation into the spatial interpolation of rainfall. Journal of Hydrology, 2000, 113-129.
本博文從研究意義、研究區及預處理、所使用的插值方法以及對插值方法的評價這四個角度對該文進行了詳細評述,並分析了該文的一些不足。
1內容評述
該文利用三種以高程作為輔助資訊的克里金插值法來對降水量進行預測,分別為區域性平均簡單克里金法(simple kriging with locally varying mean, SKlm)、帶有外部漂移的克里金法(kriging with external drift, KED)和同位協同克里金法(collocated cokriging, CC),然後利用交叉驗證評價方法將上述三種方法得出的結果與傳統的泰森多邊形法、反距離平方加權法、普通克里金法以及線性迴歸法得到的結果進行比較。本章將從意義、研究區及預處理、所使用的插值方法以及評價方法這四個角度對該文進行詳細描述。
1.1 文章的意義
對降雨量的空間分佈進行預測很重要,目前出現了較多針對該問題的插值方法。傳統的插值法,如泰森多邊形法、反距離平方加權法、普通克里金法等只能利用各個站點降水量資料進行預測,當站點分佈比較稀疏時,傳統的方法不能很好的進行預測。
我們知道,降水量與高程存在較強的正相關關係,高的地方(如山區)降水量一般都比較大。一些地統計方法如SKlm、KED和CC不僅能利用較稀疏的各個站點的降水量資料(主資料),還能利用易得的輔助資料(輔助資料需與主資料有較強的相關性),比如數字高程模型(DEM,是規則格網,每個格網的資料代表了該點的高度),對降水量資料進行插值。該文使用這兩類不同的方法(一類只使用水文站點的降水量資料,一類除使用降水量資料外還使用了高程資料)來對降水量的空間分佈進行預測,並進行了評價。
1.2 研究區及預處理
研究區為Algarve地區,面積5000km2。資料為1970年-1995年36個站點的月平均和年平均水量資料以及該地區的DEM資料,DEM解析度為1km2。對這些資料的預處理的步驟如下:
首先分析降水量和高程的相關性。降水量與高程的皮爾森相關係數為0.33-0.83,除去7月和8月這兩個枯水季,降水量與高程皮爾森相關係數為0.50-0.97,可見降水量與高程之間有明顯的相關性。
然後對站點的降水量資料進行半方差分析。由於資料較少,該文不考慮方向性問題。由資料得到半方差圖,發現半方差圖在lag為25km時達到最高,然後突然降低並呈現波動震盪趨勢,該文把此現象稱為“hole effect”(孔洞效應)。該現象反映了原始資料有周期性重複現象,該文將此現象歸因於研究區中的兩座高山,因為高山的降水量較大。
最後對半方差圖進行擬合。該文使用迴歸方法對以下三個理論模型進行了擬合。
球面模型(Spherical model): (1)
立方模型(Cubic model): (2)
孔洞效應模型(Dampened hole effect model): (3)
如何判定上述三個理論模型的擬合效果呢?該文使用的判斷依據是WSS(weighted sum of squares,實驗變差函式與理論模型值之差的加權和)最小這一指標。
(4)
(5)
比較上述三個模型的WSS,發現立方模型(Cubic model)的WSS最小,所以該文選擇的理論半方差模型為立方模型(Cubic model)。
1.3 插值方法
在對資料進行了詳細分析及預處理後,就可對降水量進行插值。對降水量資料進行插值的方法很多,根據是否使用輔助資料分成兩類。本小節對這兩類方法進行評述。
1.3.1 傳統的方法
1) 泰森多邊形法:首先找到與該待插值點在空間上最近的一個站點,將站點的降水量資料賦予該點即可。該法優點是簡單,缺點是形成斑塊,結果不真實。
2) 反距離平方加權法:待插值點的值是該點附近已知站點資料的線性組合,線性組合的權重為該點與附近站點歐式距離平方的反比。該法基於這樣一個假設:與待插值點越近的測量點,其資料與待插點的真值也越接近。該法優點是結果較為平緩,不形成斑塊,缺點是不能保證估計方差最小。
3) 普通克里金法:與反距離平方加權法相似,只是線性組合的權重需要求解方程組得到。
該法的步驟為:使用預處理中給出的理論半方差模型,通過無偏和估計方差最小這兩個條件來聯列方程組求解權重係數。該法的優點是能使估計誤差最小,缺點是當觀測點資料較少時,得到的結果不可靠。
1.3.2. 結合高程資訊(輔助資料)的方法
1) 線性迴歸法:因為降水量資料與高程資料相關性較強,可以直接構造線性迴歸方程(當主資料與輔助資料不是線性相關時,可以轉換輔助資料使之線性相關),然後對空間上每一點進行求值。該法的優點是直觀簡單,缺點是認為線性迴歸後的殘差空間不相關,而通過對殘差資料進行分析發現是空間相關的。
(6)
2) SKlm法:SKlm法首先通過主輔資料間的相互關係來求得線性關係式,該關係式利用整體資料只求一次,用於整個區域的估值;然後對殘差進行簡單克里金,如果殘差不相關,那麼所有克里金的權重係數為0,插值結果就是線性迴歸得到的結果。該法的優點是考慮了殘差的空間相關性,線性迴歸可以看作其一個特例(殘差空間不相關)。
(7)
(8)
3) KED法:KED利用處處已知的輔助變數,並且假設輔助變數能夠反映主變數的區域性空間趨勢,與SKlm相似,不同之處在於對區域性平均值的求解。對於SKlm法,利用所有測量點求解一次線性關係式,用於整個區域的估值,而KED法則在每個搜尋鄰域內進行估計,即KED的主輔資料之間的關係是區域性估計的。KED使用區域性鄰域估計主輔資料之間的線性函式關係,比SKlm利用所有主輔資料之間的關係更合理。
(9)
(10)
4) CC法:是協同克里金法的一種簡化形式,即如果輔助變數密集取樣的時候,只保留與待插值點同位的輔助資料。CC法與SKlm法和KED法不同,SKlm法和KED法是間接的利用高程的資訊,即利用高程資訊得到趨勢值,而CC法則是直接將高程資料應用到估值中。
(11)
1.3.3 對各插值方法的評價
使用交叉驗證的方法。交叉驗證法是依次假設每個實測資料點均未被測定,根據n-1個其它測定點的資料用某種插值方法來估計這個假設未被測定的值(假設共有n個實測資料)。結果發現泰森多邊形法和反距離平方加權法的得到的結果誤差最大,因為這兩種方法同時忽略了高程資訊和周圍站點測的降水量的資訊。SKlm法、KED法和CC法較其它方法得到的結果更為精確。而當高程與降水量的相關性不是很強的時候(在本研究中皮爾森相關係數小於0.75時),普通克里金法得到的結果比線性迴歸法好。
2 文章帶來的啟發
通過對該文獻的閱讀和理解,加深了對克里金插值方法的認識,對克里金插值的流程有了進一步的熟悉,最重要的一點收穫是,在對資料進行插值時,如果主資料和輔助資料存在較好的相關性,我們不僅可以對主資料進行直接插值,還能結合輔助資料進行插值。
3 文章研究的不足
雖然該文邏輯清晰,方法多樣,對結果的意義解釋也很明瞭,但對該文進行仔細分析,仍可發現存在如下幾點不足:
1) 選取普通克里金法作為傳統方法的一種並不合適。該文為了體現結合高程資訊插值方法的優勢,選取了三種只使用降水量資料的傳統方法作為對比,其中有普通克里金方法,但我認為選擇普通克里金方法是不合適的,泛克里金方法比較合適。我們知道,普通克里金方法是基於均值在隨機場上不變的思想,而在該文研究中,降水量是隨著地形的變化而變化的,在高山地區的降水量均值明顯較大,也就是說其均值是隨著位置的改變而改變的,因此使用普通克里金方法來進行插值不合適,故而可以考慮使用趨勢面法或者泛克里金方法。
2) 該文建立了降水量與高程的線性迴歸模型,並認為該回歸的不足是沒有考慮殘差的線性相關性,從而引發了使用各種克里金方法。基於此,可以考慮使用GLMs方法來對降水量進行預測。
3) 該文認為資料量比較小,不考慮資料的有向性問題,但該資料可能存在有向性,因為受高程影響,資料分佈與高程也一致,而由於山脈的有向分佈可能導致資料存在有向性。可以考慮使用週期圖進行分析,這樣不管原始資料有向還是無向都可以進行分析。
4) 該文對年平均降水量和月平均降水量進行了空間分佈的預測,是否可以按季節進行分類,對季平均降水量進行空間分佈的預測?
5) 是否考慮使用時空模型,來對不同空間和不同時間的降水量進行預測?