社交網路分析的 R 基礎:(三)向量、矩陣與列表

張高興發表於2022-02-07

在第二章介紹了 R 語言中的基本資料型別,本章會將其組裝起來,構成特殊的資料結構,即向量、矩陣與列表。這些資料結構在社交網路分析中極其重要,本質上對圖的分析,就是對鄰接矩陣的分析,而矩陣又是由若干個向量構成,因此需要熟練掌握這些特殊的資料結構。

向量

向量的建立

向量(vector)作為 R 語言中最簡單的資料結構,由一串有序的基本資料型別變數構成。

x <- c(1, 2, 3, 4, 5)

上面一行程式碼就是建立一個包含 5 個元素的向量 x,而 c() 就是建立向量的函式。多個向量也可以使用 c() 進行拼接:

x <- c(1, 2, 3, 4, 5)
y <- c(6, 7, 8, 9, 10)
z <- c(x, y)

程式碼中的向量 z 包含 10 個元素,即向量 x 和向量 y 的拼接。

向量的建立也可以通過物件導向的方式實現:

x <- vector(mode = "integer", length = 5)

引數 mode 為向量中儲存的資料型別,對應 R 語言中基本的資料型別,如整型 integer,浮點型 numeric, 字串型 character,邏輯型 logical 等等;length 為初始向量的長度。向量作為一種無限長度的資料結構,此處的 length 是指向量初始化時的長度,後續仍然可以使用 c() 新增元素。

x <- c(x, 0)  # 向 x 中新增元素 0

向量元素的訪問

向量中的元素通過“[索引]”的形式訪問。需要注意的是 R 語言中的索引不代表偏移量,而代表第幾個,即索引從 1 開始。

> x <- c(10, 9, 8, 7, 6)
> x[2]
[1] 9

在瞭解向量元素的訪問後,也可以通過元素訪問的形式向其中新增元素:

> x[6] <- 5  # x 原長度為5
> x
[1] 10 9 8 7 6 5

? 提示

在 R 語言中任何使用索引的資料結構都可以使用元素訪問的形式擴充。

想要從向量中取出多個元素需要在方括號內傳遞索引的向量,即“[c(索引)]”。

> x[2: 4]  # 取出第 2 到 4 項
[1] 9 8 7
> x[c(1, 3, 5)]  # 取出第 1,3,5 項
[1] 10 8 6
> x[c(-1, -5)]  # 去掉第 1,5 項
[1] 9 8 7

R 語言中還存在一種特殊的索引——名稱索引。

> x <- c(1, 2, 3, 4, 5)
> names(x) <- c("one", "two", "three", "four", "five")  # 對名稱索引進行賦值
> x["three"]  # 使用名稱索引訪問元素
three
3
> names(x)  # 檢視名稱索引
[1] "one"   "two"   "three" "four"  "five"

名稱索引相比數值索引的好處就是容易記憶,在對圖中節點屬性進行分析時,通常使用節點的名稱去訪問圖中的節點,而不是使用節點的索引。

向量的運算

向量可以直接進行算數運算,運算時是向量的對應元素進行同樣的算術運算。比如:

> x <- c(1, 2, 3, 4, 5)
> y <- c(5, 4, 3, 2, 1)
> x + y
[1] 6 6 6 6 6

基本的算術運算包括:+-*/、乘方 ^。還包括常用的數學函式:log()sin()sqrt() 等等。還有一些特殊的統計函式:最大值 max()、最小值 min()、求和 sum()、平均值 mean() 等等。

> x <- c(1, 2, 3, 4, 5)
> max(x)
[1] 5
> mean(x)
[1] 3

向量的邏輯運算包括兩種情況,一種是對向量中的每一個元素,一種是對向量整體:
| 運算子 | 描述 |
| :-: | :- |
| & | 元素邏輯與運算子,將第一個向量的每個元素與第二個向量的相對應元素進行與運算 |
| | | 元素邏輯或運算子,將第一個向量的每個元素與第二個向量的相對應元素進行或運算 |
| && | 邏輯與運算子,只對兩個向量的第一個元素進行與運算 |
| || | 邏輯或運算子,只對兩個向量的第一個元素進行或運算 |

> x <- c(T, T, F, F, F)
> y <- c(T, T, F, T, T)
> x & y
[1]  TRUE  TRUE FALSE FALSE FALSE
> x | y
[1]  TRUE  TRUE FALSE  TRUE  TRUE
> x && y
[1] TRUE
> x || y
[1] TRUE

向量的其他常用操作

獲取向量的長度 length()

> length(c(1, 2, 3, 4, 5))
[1] 5

查詢特定元素在向量中的索引 which()

> x <- c(1, 2, 3, 4, 5)
> which(x == 2)
[1] 2

使用 %in% 判斷元素是否在向量中存在:

> 2 %in% c(1, 2, 3, 4, 5)
[1] TRUE

對向量中的元素進行排序 order(),需要注意的是 order() 返回的排序結果是向量值的索引:

> x <- c(10, 20, 30, 40, 50)
> order(x, decreasing = TRUE)
[1] 5 4 3 2 1

統計特定元素在向量中出現的次數 table()

> x <- c(T, T, F, F, F)
> table(x)
x
FALSE  TRUE
    3     2

矩陣

矩陣的建立

矩陣(matrix)作為社交網路分析中的一個重要工具,其並不算是一個基本的資料結構。你可以將矩陣看成一個二維陣列(array),或是由多個向量(vector)構成。在 R 語言中使用 matrix() 函式來建立矩陣。

matrix(data = NA, nrow = 1, ncol = 1, byrow = FALSE, dimnames = NULL)

其中 data 為矩陣的填充元素,nrow 為矩陣的行數,ncol 為矩陣的列數,byrow 表示 data 的值是否按行填充,dimnames 給矩陣行列的名稱賦值。

> matrix(c(1:6), nrow = 2, ncol = 3, byrow = TRUE, dimnames = list(c("r1", "r2"), c("c1", "c2", "c3")))
   c1 c2 c3
r1  1  2  3
r2  4  5  6

上面即建立了一個 2 行 3 列的矩陣,通過按行填充元素的方式,並且給行和列賦予了名稱。獲取矩陣的行數和列數可以使用函式 nrow()ncol()

矩陣還可以通過組合向量的方式建立,使用 rbind() 函式按行組合向量,使用 cbind() 函式按列組合向量:

> v1 <- c(1:3)
> v2 <- c(4:6)
> v3 <- c(7:9)

> rbind(v1, v2, v3)  # 按行組合
   [,1] [,2] [,3]
v1    1    2    3
v2    4    5    6
v3    7    8    9

> cbind(v1, v2, v3)  # 按列組合
     v1 v2 v3
[1,]  1  4  7
[2,]  2  5  8
[3,]  3  6  9

矩陣元素的訪問

矩陣中的元素通過“[行索引, 列索引]”的形式訪問。

> m <- matrix(c(1:6), nrow = 3)
> m[3, 2]
[1] 6

想要從矩陣中取出行向量或者列向量,使用“[行索引,]”或者“[,列索引]”。

> m[1, ]  # 取第一行
[1] 1 4

> m[, 2]  # 取第二列
[1] 4 5 6

在給矩陣的行列賦值名稱後,可以使用名稱索引訪問。

> rownames(m) <- c("r1", "r2", "r3")  # 定義行的名稱
> colnames(m) <- c("c1", "c2")  # 定義列的名稱

> m["r2", "c2"]
[1] 5

矩陣的運算

矩陣直接進行算術運算時,是兩個矩陣對應位置的元素做運算。數學函式和統計函式在矩陣中的用法與在向量中的用法相同。

> m1 <- matrix(c(1:4), nrow = 2)
> m2 <- matrix(c(5:8), nrow = 2)
> m1 * m2
     [,1] [,2]
[1,]    5   21
[2,]   12   32

矩陣還包括一些特有的運算,比如內積 %*%,外積 %o%

> m1 <- matrix(c(1:6), nrow = 2)
> m2 <- matrix(c(1:6), nrow = 3)
> m1 %*% m2  # 矩陣的內積
     [,1] [,2]
[1,]   22   49
[2,]   28   64

> m1 <- c(1, 2, 3)
> m2 <- c(4, 5, 6)
> m1 %o% m2  # 矩陣的外積
     [,1] [,2] [,3]
[1,]    4    5    6
[2,]    8   10   12
[3,]   12   15   18

矩陣的轉置使用函式 t()

> m <- matrix(c(1:4), nrow = 2)
> t(m)
     [,1] [,2]
[1,]    1    2
[2,]    3    4

矩陣的特徵值與特徵向量

特徵值與特徵向量作為矩陣的重要屬性,不僅在傳統的圖分析中有重要的意義,在圖卷積中也有重要的應用。R 語言提供了計算函式 eigen()

> v1 <- c(1, 0, 0)
> v2 <- c(2, 3, 0)
> v3 <- c(4, 5, 6)
> m <- cbind(v1, v2, v3)

> eigen(m)              
eigen() decomposition
$values  # 特徵值
[1] 6 3 1

$vectors  # 特徵向量
          [,1]      [,2] [,3]
[1,] 0.6023442 0.7071068    1
[2,] 0.6844821 0.7071068    0
[3,] 0.4106893 0.0000000    0

隨著網路規模的變大,eigen() 函式的計算速度會變得很慢,此時通常會使用 RSpectra 包來加快計算速度。在 RSpectra 包中使用 eigs() 函式計算特徵值與特徵向量:

> library(RSpectra)
> eigs(m, 3)  # 這裡的 3 是指要計算特徵值與特徵向量的個數
$values
[1] 6 3 1

$vectors
          [,1]      [,2] [,3]
[1,] 0.6023442 0.7071068    1
[2,] 0.6844821 0.7071068    0
[3,] 0.4106893 0.0000000    0

當網路規模繼續變大,鄰接矩陣中的節點數量到達數十萬以上的規模時,RSpectra 包仍然有些捉襟見肘。這時使用 Rcpp 包呼叫 C++ 的程式碼,採用平行計算的方式加快計算速度。對於矩陣的計算操作,安裝 Rcpp 包的同時還需要安裝 RcppEigen 包。依賴的包安裝完成後,新建一個 matrix.cpp 檔案,將下面的程式碼複製到該檔案中儲存。

// [[Rcpp::depends(RcppEigen)]]
#include <RcppEigen.h>

// [[Rcpp::export]]
SEXP eigenValues(const Eigen::Map<Eigen::MatrixXd> A){
    Eigen::SelfAdjointEigenSolver<Eigen::MatrixXd> es(A);
    return Rcpp::wrap(es.eigenvalues());
}

// [[Rcpp::export]]
SEXP eigenVectors(const Eigen::Map<Eigen::MatrixXd> A){
    Eigen::SelfAdjointEigenSolver<Eigen::MatrixXd> es(A);
    return Rcpp::wrap(es.eigenvectors());
}

緊接著在工作區中引入 Rcpp 包與 matrix.cpp 檔案,此時就可以呼叫特徵值計算函式 eigenValues() 和特徵向量計算函式 eigenVectors()

> library(Rcpp)
> sourceCpp("matrix.cpp")
> eigenValues(m)
[1] 1 3 6
> eigenVectors(m)  
     [,1]      [,2]      [,3]
[1,]    1 0.7071068 0.6023442
[2,]    0 0.7071068 0.6844821
[3,]    0 0.0000000 0.4106893

? 提示

要實現其他的矩陣計算操作可以檢視 RcppEigen 的教程:https://cran.r-project.org/web/packages/RcppEigen/vignettes/RcppEigen-Introduction.pdf

列表

列表的建立

列表(list)在 R 語言中是由一個個物件所構成的集合,這些物件可以是不同的資料型別,比如數值、字串、向量、矩陣等等。如果為列表元素定義名稱的話,列表更像是 Python 中的字典,但 R 語言中的列表中的元素是有序的。在 R 語言中使用 list() 函式來建立列表。

list(name = "ruby", age = 18, scores = c(100, 88.5, 82))

上面一行程式碼建立了一個包含數值、字串與向量的列表,同時為每一個元素定義了名稱。將其輸入到 R 終端中,細心的你會發現這與矩陣計算特徵值和特徵向量的函式 eigen() 返回的型別一致。這種定義了名稱的列表對於包含多個返回值的函式非常方便。

> list(name = "ruby", age = 18, scores = c(100, 88.5, 82))
$name
[1] "ruby"

$age
[1] 18

$scores
[1] 100.0  88.5  82.0

列表還可以通過多個列表合併的方式建立,合併使用函式 c()。下面的程式碼展示了兩個列表的合併,同時使用了未定義元素名稱的列表建立方式。注意觀測列表的輸出結果,輸出的索引表明了列表是有序的。

> l1 <- list(matrix(c(1:4), nrow = 2))
> l2 <- list(c("a", "b", "c"), 12345)
> c(l1, l2)
[[1]]
     [,1] [,2]
[1,]    1    3
[2,]    2    4

[[2]]
[1] "a" "b" "c"

[[3]]
[1] 12345

? 提示

c() 本質上並不是建立向量的函式,c 是 combine 的縮寫,是一個合併函式。

列表元素的訪問

列表中的元素通過“[[索引]]”的形式訪問,當列表元素定義了名稱後可以使用“$名稱”或者“[["名稱"]]”的形式訪問。

> student <- list(name = "ruby", age = 18, scores = c(100, 88.5, 82))
> student[[1]]
[1] "ruby"
> student$age
[1] 18
> student[["scores"]]
[1] 100.0  88.5  82.0

對於在建立時沒有定義名稱的列表,仍然可以使用 names() 定義名稱。

> l <- list(c("a", "b", "c"), 12345)
> names(l) <- c("name1", "name2")

✏️ 練習

1. 試著建立一個向量,看看向量能否包含不同型別的元素,比如 c(1, "a") 會建立一個什麼向量;

2. 試著對矩陣進行運算,能否求出一個矩陣的最大元素;

3. 列表通過“[索引]”與“[[索引]]”有什麼不同,輸出看看;

4. list(c("a", "b", "c")) 該列表的長度是多少。

5. 試著對任意一個非空列表使用 unlist() 函式,看看會發生什麼。

參考

  1. An Introduction to R
  2. R 資料型別 | 菜鳥教程
  3. R 矩陣 | 菜鳥教程
  4. R 列表 | 菜鳥教程

相關文章