R語言分詞及視覺化協助快速瞭解導師研究方向

小Li先生發表於2020-10-24

又到一年一度的考研考博報名環節,想要快速瞭解某個實驗室或導師的科研能力(文章產出、研究方向),如何做到呢?今天分享給大家一個簡單高效的統計視覺化方法,希望多多提意見,謝謝。

一、視覺化的結果圖片,在圖片中我們能得出,導師的工作主要是Agriculture方向,其中主要作物wheat、maize,主要內容:model、water use efficiency、yield、climate change、ecology、carbon、Meteorology、evapotranspiration、atmospheric等等,基本瞭解了研究方向是作物-生態(氣候)-水資源利用之間的關係。

在這裡插入圖片描述

二、如何實現的?

1、資料的獲取,通過web of science搜尋,利用endnote匯出關鍵詞獲得。詳細步驟請參考。。。

圖2

2、詳細程式碼

yu <- scan("C:/Users/administrator/Desktop/yu.txt",sep = '\n',what = '',encoding = 'UTF-8') ##匯入資料txt格式
segp1 <- qseg[yu]  ##分詞
length(segp1) ##總詞量
[1] 6635
segp2 <- segp[nchar(segp1)>1]##去除字元長度小於1的詞
class(segp2)
[1] "character"
segp3 <- table(segp3)##用 table() 函式統計因子各水平的出現次數(稱為頻數或頻率)。也可以對一般的向量統計每個不同元素的出現次數
class(segp3)
[1] "table"
segp4 <- segp[!grepl('[0-9]+',names(segp3))]##過濾數字
segp5 <- sort(segp4,decreasing = T)[1:1000]##將向量或因子(部分)按升序或降序排序
segp5
library(wordcloud2)
wordcloud2(segp5)

#table用法
> sex = c("女","女","女","男","男")
> table(sex)
sex
男 女 
 2  3 
> 
##sort用法,必須排下序要不然會預設a-z排列,像Sciences排後面視覺化的結果自動刪除靠後的結果
segp1 <- sort(segp,decreasing = T)[1:1000]
> segp1
segp
          Sciences              model              water        Agriculture                use              wheat 
               130                127                108                 87                 84                 84 
             Water            climate             change              yield      Environmental         efficiency 
                75                 74                 73                 67                 65                 63 
           Ecology        temperature               soil             carbon        Meteorology        Atmospheric 
                61                 61                 57                 53                 51                 50 
       variability             winter        conductance evapotranspiration          Resources               crop 
                50                 45                 39                 39                 37                 36 
            forest               leaf     photosynthesis         vegetation              maize          ecosystem 
                36                 35                 35                 34                 33                 32 
            growth            surface             canopy         management             models          radiation 
                32                 31                 30                 30                 30                 29 
           balance              river            impacts              index       productivity             energy 
                28                 28                 27                 27                 27                 26 

三、如何將關鍵詞進行正確的結合?如climate change,本來是一個詞彙但分詞強行分成了climate和change兩個,所以如果有想法或已經有結果的朋友,分享下吧。

相關文章