Cora 資料集介紹

Link0216發表於2022-05-17

簡介

Cora資料集包含2708篇科學出版物, 5429條邊,總共7種類別。資料集中的每個出版物都由一個 0/1 值的詞向量描述,表示字典中相應詞的缺失/存在。 該詞典由 1433 個獨特的片語成。意思就是說每一個出版物都由1433個特徵構成,每個特徵僅由0/1表示。

說明

這個資料集是經過預處理的:

原始版本下載:

  • http://www.cs.umd.edu/~sen/lbc-proj/LBC.html
  • 資料集包含以下檔案:

    • ind.cora.x : 訓練集節點特徵向量,儲存物件為:scipy.sparse.csr.csr_matrix,實際展開後大小為: (140, 1433)

    • ind.cora.tx : 測試集節點特徵向量,儲存物件為:scipy.sparse.csr.csr_matrix,實際展開後大小為: (1000, 1433)

    • ind.cora.allx : 包含有標籤和無標籤的訓練節點特徵向量,儲存物件為:scipy.sparse.csr.csr_matrix,實際展開後大小為:(1708, 1433),可以理解為除測試集以外的其他節點特徵集合,訓練集是它的子集

    • ind.cora.y : one-hot表示的訓練節點的標籤,儲存物件為:numpy.ndarray

    • ind.cora.ty : one-hot表示的測試節點的標籤,儲存物件為:numpy.ndarray

    • ind.cora.ally : one-hot表示的ind.cora.allx對應的標籤,儲存物件為:numpy.ndarray

    • ind.cora.graph : 儲存節點之間邊的資訊,儲存格式為:{ index : [ index_of_neighbor_nodes ] }

    • ind.cora.test.index : 儲存測試集節點的索引,儲存物件為:List,用於後面的歸納學習設定。

    需要說明有以下幾點:

    1)為什麼訓練集節點數這麼少,只有140個節點?

    答:用的訓練集越少,取得的效果越好,說明自己的方法越好。

    (ps:你用這麼少的訓練集,我如果用的比你多,即使最後準確率也比你高,也沒法說我方法比你更好,因為有兩個變數:訓練集大小和模型。)

    (ps:這是因為最初的那個人用的少,後面的人為了對比,只能用這麼大的訓練集。一個字:卷。)

    2)為什麼訓練集(140)+測試集節點數(1000) != 所有節點數 (2708) ?

    答:訓練集為什麼這麼少,問題1已經解答;測試集估計是為了湊整數,用了1000。

    3)剩下的節點去哪了?

    答:ind.cora.allx檔案, 有沒有發現測試集節點加上這個檔案的節點數正好為2708。 ind.cora.allx + ind.cora.tx = all (2708)。不過不用擔心節點浪費的問題, 因為訓練的時候是將整張圖都輸入進去的,所有的節點都會參與訓練過程,唯一的區別就是,訓練的時候只用訓練集節點去更新梯度,其他節點僅作為特徵。

  • 轉載自百度PaddlePaddle對Cora資料集的介紹

相關文章