Coding-and-Paper-Letter(四十七)

胖胖雕發表於2019-01-25

資源整理。

文章目錄

1 Coding:

1.Rstudio2019年會,Tidyverse中的資料科學材料,兩天的研討會。

data science in tidyverse

2.推薦系統示例與實踐。

Recommenders

3.R語言包fsttable,用於以fst格式儲存的快速磁碟資料表的介面。

fsttable

4.Point Cloud Library(PCL)是一個獨立的大型開放專案,用於2D/3D影象和點雲處理。

pcl

5.120個資料科學麵試問題的答案。

120 Data Science Interview Questions

6.cesm,通用地球系統模型,目前比較流行的一種陸面系統模型。

cesm

7.美國開放的citygml資料。

opencitymodel

8.R語言包xgboostExplainer,使xgboost模型完全可解釋。

xgboostExplainer

9.資料視覺化課程。

dataviz

10.R語言包landscapetools,用於執行一些景觀分析的操作(主要是轉換格式類)。

landscapetools

11.基於CFFI的Python的cairo橋接。

cairocffi

12.Julia庫DynamicalSystems,用於探索混沌和非線性動力學。

DynamicalSystems.jl

13.Shiny工程,鄰里多樣性。

neighborhood diversity

14.R語言包tidycensus,允許使用者使用美國人口普查局的十年期人口普查和五年美國社群API介面,並返回整齊的data.frame,可選擇包括簡單的地理要素。

tidycensus

15.R語言包dapr,無依賴性的類似purrr的apply/map/iterate函式。

dapr

16.Pentaho資料整合(ETL)

pentaho kettle

17.R語言中空間資料的學習課程,主要是swirl包。

Spatial Data in R

18.研討會網頁模板渲染。

workshop template

19.圖神經網路論文。

GNNPapers

20.自動區分C++的工具。

autodiff

21.Julia庫RecurrenceAnalysis,供了計算遞迴圖並在遞迴量化分析框架內進行探索的工具。

RecurrenceAnalysis.jl

22.建立具有GPU啟用節點的小型slurm叢集的步驟。

ubuntu slurm

23.城市增長模型。

UrbanGrowth model

24.Python庫PySimpleGUI,用於構建GUI介面的庫。

PySimpleGUI

25.簡單易用用於標註fast-cnn訓練所需圖片的Python程式。

label picture

26.Tidyverse訓練研討會的材料。

teach tidy

27.R語言包geospark,通過geospark scala包將sf帶入spark。

geospark

28.有用的函式、教程以及其他Python相關材料。

python reference

29.Python庫numexpr,用於Python,NumPy,PyTables,pandas,bcolz等的快速數值求解。

numexpr

30.R語言包opencage,Opencage API的R語言介面。

opencage

2 Paper:

1.Spatiotemporal patterns and determinants of dengue at county level in China from 2005-2017/2005-2017年中國縣級登革熱的時空格局和決定因素

目的:確定登革熱病例的高風險時空聚類,探討相關的危險因素。方法:2005-2017年每月土著登革熱病例在縣一級彙總。使用SaTScan9.4.4和Arcgis10.3.0,使用時空聚類分析來探索登革熱分佈特徵。此外,使用Maxent 3.3.1軟體中的生態位模型分析了登革熱暴發的影響因素和潛在高風險區域。結果:我們發現了登革熱病例的異質性時空分佈模式。確定的初級叢集高風險區域覆蓋廣東省13個縣,次要叢集包括雲南省14個縣。此外,氣象和環境因素與登革熱爆發之間存在非線性關聯,年平均最低氣溫,土地覆蓋和年平均降水量分別為8.5%57.1%,6.7%38.3%和3.2%~40.4%。結論:登革熱暴發的高危地區主要分佈在廣東和雲南省,這些地區受溫度,降水和土地覆蓋等環境和氣象因素的影響很大。健康地理的一篇文章,主要分析登革熱的影響因素,由於登革熱受蚊蟲傳播,因此在溼熱的環境下容易爆發,與自然因子有很好的關聯。這篇應該用的依舊是時空掃描統計方法以及最大熵模型。

2.Air pollution lowers Chinese urbanites’expressed happiness on social media/空氣汙染降低了中國城市居民在社交媒體上的幸福感

中國較重的空氣汙染可能導致城市人口表達出較低的幸福感。為了測試這一說法,我們根據中國最大的微博平臺新浪微博上2.1億條帶有地理標記的微博內容的情緒構建了每日城市級幸福感指標,並研究了其相對於每天本地空氣的動態質量指數和PM2.5濃度(直徑等於或小於2.5μm的細顆粒物質,中國城市中最突出的空氣汙染物)。利用2014年144箇中國城市的每天資料,我們的結果表明,PM2.5濃度(或空氣質量指數)增加一個標準差會導致幸福指數的0.043(或0.046)標準差減少。人們在週末,假日和極端天氣條件下遭受更多的痛苦。女性群體的幸福感相對於普通城市(無論是空氣清淨或者是汙染嚴重的)居民對空氣汙染更為敏感。社交媒體資料為中國政府提供了關於生活質量提高的實時反饋意見。發表於Nature Human Behavior的文章,來自於清華大學鄭思齊老師、地理所王江浩老師的成果,社交媒體地理學的一篇應用案例,非常有意思的研究。三個關鍵資訊,一是這種方法在大資料時代的可能性,二是空氣汙染對於居民的影響,三是女性可以做為一個脆弱性人群的分析。當然我覺得關於新浪微博資料的代表性問題也是可以討論的。

3.Impacts of Urban Green Landscape Patterns on Land Surface Temperature: Evidence from the Adjacent Area of Olympic Forest Park of Beijing, China/城市綠地景觀格局對地表溫度的影響 - 來自北京奧林匹克森林公園周邊地區的證據

城市綠地被認為是緩解城市熱島(UHI)的生態措施。然而,很少有研究調查城市公園相鄰區域的降溫效果;作為從綠色空間到硬化表面的過渡區域,發生更復雜的熱交換,值得更多關注。本文考察了北京奧林匹克森林公園城市綠化模式與周邊地區降溫效應的關係。結果表明,林地和水體分別可以降低6.51%和12.82%的不透水錶面溫度。綠地率每增加10%,地表溫度下降0.4°C,距森林公園距離每公里增加,地表溫度上升0.15°C。綠色空間圖案的聚集指數(AI)和最大斑塊指數(LPI)與表面溫度呈現強烈的負相關。這項研究證實了城市公園相鄰區域的降溫效果,並突出了它們對城市綠化模式的依賴。因此,我們不僅要開發更多的綠地,還要在有限的城市土地上科學規劃其空間結構,以提高降溫效果。關注在公園這種大型綠地對於LST的影響。

4.Observed long-term greening of alpine vegetation - A case study in the French Alps/觀察高山植被綠化的長期過程-法國阿爾卑斯山的一個案例研究

我們將來自多個來源(MODIS,Landsat-5,7,8)的影象與土地覆蓋資料相結合,以測試溫帶高山地區Ecrins國家公園的植被長期(1984-2015)綠化或褐變趨勢。近期氣候變化和國內放牧實踐的背景。我們發現,在過去16年(2000-2015),Ecrins國家公園中超過一半(56%)的峰值歸一化植被指數(NDVI max)顯著增加。重要的是,NDVI max的最大比例增加發生在高海拔(> 2500 m)的岩石棲息地。雖然MODIS和Landsat檢測到的NDVI最大變化方向的空間一致性很高(76%重疊),但對數響應比值之間的相關性具有中等強度(約0.3)。在上述樹線棲息地的背景下,我們發現1984年至2000年間NDVI max的比例增加高於2000年至2015年,表明近十年來綠化動態減緩。 2000年之前加速綠化的時機恰逢1980年代和1990年代發生的無雪增長度日數明顯增加。在草原和低灌木棲息地的情況下,我們沒有發現放牧對綠化趨勢的負面影響的證據,可能是由於研究區域通常發現的低放牧強度。我們提出,更長和更溫暖的生長季節的出現使得高海拔植物群落能夠產生更多的生物量,並且還允許植物定居以前以長期積雪為特徵的棲息地。在高山環境中提高植物生產力對生物多樣性軌跡和山地景觀中的生態系統服務具有潛在影響。歐洲阿爾卑斯山區代表性地區長期綠化趨勢的證據為進一步研究高山景觀綠化機制奠定了基礎。利用多源遙感影像來分析長時間的greening,這類研究前段時間傅伯傑院士團隊也發過一篇。事實上應該還是由於氣候變化導致的一些冰雪融化產生的環境效應。

5.Exploring Bamboo Forest Aboveground Biomass Estimation Using Sentinel-2 Data/利用Sentinel-2資料探索竹林地上生物量估算

由於生長迅速和收穫輪伐期短,竹林在碳迴圈和地方經濟發展中發揮著重要作用。在過去二十年中,準確估算竹林地上生物量(AGB)已引起越來越多的關注。然而,由於對竹林生長特徵與遙感資料之間機制的認識不足,基於遙感的竹林AGB估算具有挑戰性。本研究的目的是檢查不同日期的年度和年度竹林的遙感特徵及其AGB估算效能。本研究利用多個Sentinel-2資料,考慮了中國和中國竹林生長特徵的獨特特徵,探討了中國浙江省竹林的AGB估算。結合野外調查資料和Sentinel-2光譜響應(光譜帶和植被指數)和紋理影象,隨機森林被用於識別AGB估計的關鍵變數。結果表明:(1)年際和年年竹林的光譜特徵差別很大,特別是在紅邊2和近紅外波長(NIR2)(740-865 nm)之間的波長,使得分開的年度和年度竹林; (2)同年竹林具有相似的光譜特徵,儘管AGB從40 Mgha-1增加到高達90 Mgha-1,這意味著光學感測器資料不能有效模擬年際竹AGB; (3)年度竹AGB與4月影象中的紅色和短波紅外(SWIR)光譜帶有顯著關係,7月影象中紅色邊緣2,但AGB飽和度問題的估計精度差; (4)分層顯著改善了年度竹AGB估算,但不是同比,建議使用4月影象進行非分層; (5)當AGB大於70 Mgha-1時,Sentinel-2資料無法解決竹AGB資料飽和問題,類似於其他光學感測器資料,如Landsat。未來應該進行更多的研究,以將多個源 - 遙感資料(例如,鐳射雷達,光學感測器資料)和輔助資料(例如,土壤,地形) - 整合到AGB建模中以改進估計。使用可以有效提取樹密度資訊的非常高的空間解析度影象可以改善竹子AGB估計併產生新的見解。基於哨兵衛星的竹林AGB估計,有很多卓有成效的地面調查工作結合了遙感估算,從遙感光譜上分析也較為深入,提出的展望和未來研究方向值得關注。

6.Classification of Land Cover, Forest, and Tree Species Classes with ZiYuan-3 Multispectral and Stereo Data/用資源3號多光譜和立體資料分類土地覆蓋,森林和樹種

高空間解析度影象的全球可用性使得樹種分佈成為可能,以便更好地管理森林資源。以前的研究主要集中在繪製單一樹種,但往往需要有關各種樹木,尤其是人工林的空間分佈的資訊。該研究旨在確定適用於土地覆蓋,森林和樹種分類的變數和演算法。使用雙時間資源3號多光譜和立體影象。通過對包括最大似然分類器(MLC),k-的六種分類演算法的比較分析,檢查來自多光譜影象的光譜響應和紋理,來自雙時間立體影象的冠層高度特徵以及來自立體衍生的數字表面模型資料的斜率和高度。最近鄰(kNN),決策樹(DT),隨機森林(RF),人工神經網路(ANN)和支援向量機(SVM)。結果表明,與單獨的光譜帶相比,使用多個源資料 - 光譜帶,植被指數,紋理和地形因子 - 顯著提高了土地覆蓋和森林分類準確度,土地覆蓋等級的最高總體準確度為84.5%。來自SVM,以及89.2%的森林類,來自MLC。與單季光譜影象相比,葉片和葉片季節性影象的組合進一步提高了土地覆蓋類別的分類準確度7.8%至15.0%,森林類別的分類準確度提高了6.0%至11.8%。與單獨的光譜影象相比,多個源資料的組合還將土地覆蓋分類提高了3.7%至15.5%,森林分類提高了1.0%至12.7%。當僅使用光譜資料時,MLC提供了比機器學習演算法更好的土地覆蓋和森林分類準確度。但是,當使用多個資料來源時,一些機器學習方法(如RF和SVM)提供了比MLC更好的效能。在多個源資料中進一步增加冠層高度特徵對改善土地覆蓋或森林分類沒有影響或影響有限,但提高了一些樹種如樺樹和蒙古蘇格蘭鬆的分類準確度。考慮到樹種分類,中國鬆,蒙古蘇格蘭鬆,紅松,白楊和榆樹等闊葉樹的分類精度超過92%,落葉松和樺樹的準確度相對較低,分別為87.3%和84.5%。然而,這些高分類精度來自不同的資料來源和分類演算法,並且沒有一種分類演算法為所有樹種類提供最佳準確度。該研究表明相同的資料來源和分類演算法無法為不同的土地覆蓋類別提供最佳分類結果。有必要使用基於專家的方法或基於分層的分類方法開發綜合分類程式,該方法可以為每個樹種類使用特定的資料變數和演算法。基於國產資源3號衛星的土地覆蓋、森林和樹種分類研究,尤其是本身資源三號屬於測繪衛星,可以提供多角度立體像對,不僅僅是遙感影像也能提供DEM的資料,對國產衛星資料的挖掘。

7.Spatial Patterns of Land Surface Temperature and Their Influencing Factors: A Case Study in Suzhou, China/地表溫度空間格局及其影響因素 - 以蘇州市為例

地表溫度(LST)是區域和全球範圍內的基本地球表層引數。在1996年,2004年和2016年的春季和夏季,我們使用7張Landsat影象在蘇州市獲得LST,並檢查了影響LST模式的空間因素。候選空間因素包括(1)土地覆蓋指數,如歸一化差異建立指數(NDBI),歸一化差異植被指數(NDVI)和歸一化差異水指數(NDWI),(2)鄰近因子如到市中心,市中心和主要道路的距離,以及(3)LST位置。我們的研究結果表明,隨著時間的推移,表面城市熱島(SUHI)的強度不斷增加,SUHI的空間分佈在兩個季節之間是不同的。蘇州的SUHI主要分佈在市中心,1996年,但在2004年和2016年擴充套件到近郊區,並在SUHI的最高水平上大幅擴張。我們基於緩衝區的梯度分析表明,隨著到蘇州市中心的距離,LST以對數方式衰減或線性衰減。由廣義加性模型(GAMs)推斷,LST與候選因子之間存在強關係,其中主導因子是NDBI,其次是NDWI和NDVI。雖然土地覆蓋指數是LST的主導因素,但空間接近度和位置也對LST和SUHI產生了實質性影響。這項工作提高了我們對SUHI及其在蘇州的影響的理解,並有助於政策制定者制定減輕SUHI影響的對策。城市熱島與相關因子的分析,其實諸如此類的文章這幾年熱島研究不斷,但是對這些研究也有值得討論的點。

8.Model Simulation and Prediction of Decadal Mountain Permafrost Distribution Based on Remote Sensing Data in the Qilian Mountains from the 1990s to the 2040s/基於遙感資料的20世紀90年代至2040年代祁連山年代際山多年凍土分佈模擬模擬與預測

基於遙感資料解釋的結果,本文旨在模擬和預測祁連山區20世紀90年代至2040年代受年平均氣溫(MDAT)影響的山地多年凍土分佈變化。基於遙感影像,視覺化地解釋基準地圖以從20世紀90年代獲得山地永久凍土分佈。通過比較和估計,使用基準地圖,地形和土地覆蓋因子以及20世紀90年代的MDAT資料構建邏輯迴歸模型(LRM)。根據氣象站的調查資料預測2010年至2040年代的MDAT資料。利用LRM,MDAT資料和因子,模擬和預測了20世紀90年代至2040年代的十年山地永久凍土分佈的概率(p)。根據p值,永久凍土分佈狀態被分類為“永久凍土可能”(p> 0.7),“永久凍土可能”(0.7≥p≥0.3)和“永久凍土不可能”(p <0.3)。從20世紀90年代到2040年代,“永久凍土可能”型別主要降級為“永久凍土可能”型別,總面積從73.5×103 km2變為66.5×103 km2。 “永久凍土可能”型別主要降級為“不可能永久凍土”,退化面積為6.5×103 km2,佔總面積的21.3%。同時,模擬結果的準確性可以達到約90%,這是通過基於遙感資料解釋結果的20世紀90年代,2000年代和2010年的模擬結果的驗證來確定的。本研究為了解長期以來氣溫上升所影響的山地多年凍土分佈變化提供了一種方法,可用於研究其他具有相似地形和氣候條件的山區。利用遙感資料和迴歸模型解譯和模擬凍土長時間序列空間分佈。