R語言分詞及視覺化協助快速瞭解導師研究方向
又到一年一度的考研考博報名環節,想要快速瞭解某個實驗室或導師的科研能力(文章產出、研究方向),如何做到呢?今天分享給大家一個簡單高效的統計視覺化方法,希望多多提意見,謝謝。
一、視覺化的結果圖片,在圖片中我們能得出,導師的工作主要是Agriculture方向,其中主要作物wheat、maize,主要內容:model、water use efficiency、yield、climate change、ecology、carbon、Meteorology、evapotranspiration、atmospheric等等,基本瞭解了研究方向是作物-生態(氣候)-水資源利用之間的關係。
二、如何實現的?
1、資料的獲取,通過web of science搜尋,利用endnote匯出關鍵詞獲得。詳細步驟請參考。。。
2、詳細程式碼
yu <- scan("C:/Users/administrator/Desktop/yu.txt",sep = '\n',what = '',encoding = 'UTF-8') ##匯入資料txt格式
segp1 <- qseg[yu] ##分詞
length(segp1) ##總詞量
[1] 6635
segp2 <- segp[nchar(segp1)>1]##去除字元長度小於1的詞
class(segp2)
[1] "character"
segp3 <- table(segp3)##用 table() 函式統計因子各水平的出現次數(稱為頻數或頻率)。也可以對一般的向量統計每個不同元素的出現次數
class(segp3)
[1] "table"
segp4 <- segp[!grepl('[0-9]+',names(segp3))]##過濾數字
segp5 <- sort(segp4,decreasing = T)[1:1000]##將向量或因子(部分)按升序或降序排序
segp5
library(wordcloud2)
wordcloud2(segp5)
#table用法
> sex = c("女","女","女","男","男")
> table(sex)
sex
男 女
2 3
>
##sort用法,必須排下序要不然會預設a-z排列,像Sciences排後面視覺化的結果自動刪除靠後的結果
segp1 <- sort(segp,decreasing = T)[1:1000]
> segp1
segp
Sciences model water Agriculture use wheat
130 127 108 87 84 84
Water climate change yield Environmental efficiency
75 74 73 67 65 63
Ecology temperature soil carbon Meteorology Atmospheric
61 61 57 53 51 50
variability winter conductance evapotranspiration Resources crop
50 45 39 39 37 36
forest leaf photosynthesis vegetation maize ecosystem
36 35 35 34 33 32
growth surface canopy management models radiation
32 31 30 30 30 29
balance river impacts index productivity energy
28 28 27 27 27 26
三、如何將關鍵詞進行正確的結合?如climate change,本來是一個詞彙但分詞強行分成了climate和change兩個,所以如果有想法或已經有結果的朋友,分享下吧。
相關文章
- 深入瞭解視覺語言模型視覺模型
- 大屏視覺化知多少?3分鐘帶你快速瞭解視覺化
- 中文分詞研究難點-詞語劃分和語言規範中文分詞
- R語言︱文字挖掘之中文分詞包——Rwordseg包(原理、功能、詳解)R語言中文分詞
- 第五篇:R語言資料視覺化之散點圖R語言視覺化
- 第三篇:R語言資料視覺化之條形圖R語言視覺化
- R語言快速入門R語言
- $\Beta$分佈推導與視覺化視覺化
- 同花順股票分數視覺化 | R爬蟲&視覺化第3季視覺化爬蟲
- 一分鐘瞭解JAVA語言Java
- R語言之視覺化①②熱圖繪製2R語言視覺化
- PYTHON視覺化:瞭解資料Python視覺化
- R語言物件導向指南R語言物件
- 協同過濾的R語言實現及改進R語言
- 快速瞭解什麼是自然語言處理自然語言處理
- 視覺語言兩開花!谷歌提出全新視覺語言橋樑視覺谷歌
- 第二篇:R語言資料視覺化之資料塑形技術R語言視覺化
- R語言之視覺化①③散點圖+擬合曲線R語言視覺化
- 第一篇:R語言資料視覺化概述(基於ggplot2)R語言視覺化
- 自然語言處理:分詞方法自然語言處理分詞
- 這個專案可以讓你在幾分鐘快速瞭解某個程式語言
- 三分鐘瞭解Go語言的前世今生Go
- R語言的常用型別、三個視覺化工具使用特點R語言型別視覺化
- (在模仿中精進資料視覺化07)星球研究所大壩分佈視覺化視覺化
- 乾貨|手把手教導!3分鐘讓你快速入門地圖視覺化地圖視覺化
- 用 10 分鐘瞭解 Go 語言 context package 使用場景及介紹GoContextPackage
- 30分鐘快速瞭解webpackWeb
- 5分鐘快速瞭解 RedisRedis
- 自然語言處理之jieba分詞自然語言處理Jieba分詞
- R語言歸一化處理R語言
- 瞭解開源視覺化表單的主要優勢視覺化
- r語言R語言
- 【R語言入門】R語言環境搭建R語言
- R視覺化09|ggplot2-圖層圖形語法 (1)視覺化
- 1分鐘瞭解C語言正確使用位元組對齊及#pragma pack的方法C語言
- 自然語言處理工具pyhanlp分詞與詞性標註自然語言處理HanLP分詞詞性標註
- iOS自動佈局(Autolayout)之VFL(視覺化格式語言)iOS視覺化
- 好程式設計師Java教程教你5分鐘瞭解快速排序程式設計師Java排序