? 時間與概念增強的深度多維專案反應理論的可解釋知識跟蹤

Arway發表於2022-02-28

Time-and-Concept Enhanced Deep Multidimensional Item Response Theory for interpretable Knowledge Tracing

“時間與概念增強的深度多維專案反應理論的可解釋知識跟蹤” 閱讀筆記

Abstract

知識追蹤(KT),由於知識狀態的潛在和時變特徵,一直具有挑戰性。傳統的心理測量框架缺乏提取練習或考生的豐富表現的能力,而基於深度學習的KT模型有著強大的特徵提取能力,但是它存在著明顯的缺點,即可解釋性弱。此外,現有的框架通常不能適當地處理時間因素,因為它們中的大多數只是通過應用隨機過程來模擬知識狀態隨時間的波動。

在這篇論文中提出了一個時間和概念增強的深度多維專案響應理論(TC-MIRT),該框架將多維專案響應理論的引數整合到一個改進的遞迴神經網路中。具體來說,其構建了兩個增強的元件,以使模型能夠執行趨勢預測,並在每個特定的知識領域中生成可解釋的引數。在兩個真實資料集上實現的實驗表明,TC-MIRT框架在效能預測任務上優於最先進的KT方法。此外,廣泛的案例分析也表明,TC-MIRT的可解釋引數可以用於評估學生的優缺點。

1 Introduction

本文最重要的兩個內容:兩個增強的元件——一個時間增強的層,以增強模型的時間趨勢預測能力;一個概念增強的模組,將多維IRF引數投影到能力座標(或概念空間)中。

文章的主要貢獻總結如下:

  • 1.成功地將多維IRT與深度網路相結合,並建立了一個始終優於最先進的KT框架的綜合模型。
  • 2.一種具有時間增強功能的元件,具有特殊的門結構(zoom gate),提供了對缺失資料和輸入問題之間的大時間間隔的魯棒性。
  • 3.通過概念增強模組,TC-MIRT能夠生成可解釋的多維引數,包括專案辨別能力、專案難度和學生能力,所有這些引數都可以直接用於特定技能(概念)維度的診斷。
  • 4.作者與兩個真實的資料集上的幾個最先進的KT模型進行了比較,並設計了一系列的實驗來說明作者的方法在效能預測和可解釋性方面的優越性。

本文將現有KT方法分為三類:

  • 第一類包括心理測量領域的基於IRT的正規化;
  • 第二類包括一系列傳統的概率模型;
  • 最後一種是最近提出的基於深度學習的模型。

2.1 Item Response Theory

專案反應理論(IRT),也被稱為潛在特徵理論,是一系列心理測量正規化的一個通用術語。一般來說,它對測試專案與測試者相應反應之間的關係進行建模。

IRT假設存在一個潛在的特徵,代表每個考生的能力,該特徵可以通過考生對專案的反應來觀察到。正確響應的概率 \((p)\) 可以通過標準的2引數專案響應函式(IRF)來計算:

\(p=\frac{1}{1+e^{-a(θ-b)}}\),(1)

引數 a 和 b 分別代表專案辨別和專案難度
θ 表示測試者的能力

雖然IRT能夠用其可解釋的引數來描述學生的行為,但一維的潛在特徵限制了其應用——因為在現實世界的輔導場景中,考生通常需要多種能力才能正確地回答一個問題。以數學為例,要解決一個高階代數問題,考生需要掌握矩陣操作、行列式計算和向量運算等幾種基本技能,用一維引數對所有三個概念進行建模是不現實的。

通過擴充套件IRT,研究人員提出了一系列多維IRT(MIRT)模型來表徵多維空間中每個測試者的潛在特徵。MIRT模型通常通過在不同維度上結合能力資訊的方式被分為兩種典型型別:補償模型和非補償模型

  • 補償模型假設一個潛在特徵的缺陷可以通過對其他維度的高度掌握來彌補;
  • 非補償模型將多維潛在特徵視為獨立的元素,並通過單一的IRT任務來解決每個特徵。對於綜合輔導系統,非補償性模式可能是不合適的,因為知識概念被認為是相互關聯的

基於irt的模型具有預定義的引數具有很強的可解釋性。然而,它們缺乏用它們簡單的引數設定來編碼更復雜的學生和專案特性的能力,這使得很難跟蹤靈活的使用者行為和問題屬性。

2.2 Probabilistic knowledge tracing models

對於一種通用的智慧輔導系統,貝葉斯知識跟蹤(BKT)通常被認為是一種有效的解決方案和一個強大的基線。通過假設一個二元隱知識狀態(掌握和非掌握),BKT能夠利用一個隱馬爾可夫模型來建模學習和回答的過程。

在最初的BKT框架中,學生和能力被平等對待,這使得該模型不可能發現個體之間的潛在差異。知識狀態的二進位制表示也限制了BKT的語境化,特別是在應用於高階教育資源時。研究人員試圖通過引入特定學生、特定技能的引數和擴大更多的狀態來改善BKT。然而,這些方法可能代價昂貴,因為它們中的大多數都是基於各種統計正則化的。

其他的概率模型,如部分可觀察的馬爾可夫決策過程和效能因素分析,也可以顯示出與BKT相當的效能。但這些模型受到高計算複雜度或它們對人類工程特徵的需求的限制。

2.3 Deep-learning based models

深度知識追蹤(DKT)利用遞迴神經網路來模擬知識狀態的轉換,並能夠捕獲題目和學生的複雜高維特徵。然而,深度網路的密集結構使得DKT不可能生成具有特定物理意義的引數。研究發現,當DKT應用於真實資料集時,它可能會導致各種問題:

  • 1.跨時間的輸出概率不一致
  • 2.與實際學生的反應不相容的反直覺預測

動態鍵值記憶網路(DKVMN)利用記憶增強神經網路(Mann)和注意機制來追蹤學生在不同維度[14]中的能力。為了進一步使DKVMN具有可解釋的引數,通過結合改進的DKVMN和IR,實現了一個名為Deep-IRT的合成框架。Deep-IRT似乎同時利用了DKVMN的特徵提取能力和IRT的有意義的IRF引數,但它仍然存在一些缺陷:

  • 首先,DKVMN和Deep-IRT都使用記憶體大小為N的記憶體矩陣來發現練習的“底層”模式或概念,其中N只是一個超引數。在這些模型的訓練過程中,記憶矩陣被隨機初始化,不提供額外的資訊來幫助它們找出哪個記憶槽對應於哪些實際的知識概念。
  • 其次,Deep-IRT採用一維IRT引數,因此缺乏處理補償性知識概念的建模能力(即,學生對不同知識的能力應該共同對輸出有貢獻)。
  • 最後,由於沒有利用時間資訊,它仍然缺乏模擬不同時間間隔後學生能力變化的能力。

3 TC-MIRT framework

本文專注於離線場景的KT應用。
對每個學生 \(i\),目標如下:

  • 1.學習模型引數:通過一系列問題 \(\{q^i_0,...,q^i_{t-1}\}\)、相關知識標籤(含多個) \(\{k^i_0,...,k^i_{t-1}\}\) 和學生回答 \(\{r^i_0,...,r^i_{t-1}\} (t=1,2,...,T-1)\),其中,T表示學生 i 的完整序列的長度,\(r^i_t\)可以是 \(0/1\),也可以是 \([0.0,1.0]\) 內的小數。
  • 2.預測學生對下一個問題 \(q^i_t\) 的回答。
    在這裡插入圖片描述

3.1 輸入層

該模型中,在時間 t,首先使用嵌入矩陣\(E∈R^M\)問題索引序列轉換為密集向量序列\((e_0,e_1,…,e_t)\)(\(e_t∈R^{d_e}\),其中\(d_e\)表示每個問題的該層輸出向量的大小)。
同時,\(q_t\)的知識概念標籤用多熱編碼\(k_t∈\{0,1\}^K\)表示,其中 K 表示潛在的知識概念或技能的數量。
為了將 \(k_t\)\(e_t\) 結合起來,全連線層的實現如下:
在這裡插入圖片描述
其中 \(e^k_t∈R^d{k_e}\)為知識編碼,\(d^k_e\)為隱藏向量的中間長度。

在實驗中,把組合的問題向量\(x_t∈R^{d_e}\)具有與 \(e_t\) 相同的形狀,隱藏向量的大小可以根據實際的訓練資源進行調整。最後,採用零填充的方法,將問題與學生回答資訊合併,形成最終的輸入:
在這裡插入圖片描述
其中 0 =(0,0,……,0\()_{de}\)是一個固定長度的零向量,用於區分成功嘗試 \((r_t=1)\) 和失敗嘗試 \((r_t=0)\)

對於有評分率 \((r_t∈[0.0,1.0])\) 的ITSs,0.6.9和0.9代表考生的能力完全不同。在這種情況下,本文應用以下實證方法來獲取更多的資訊:
在這裡插入圖片描述
其中,\(1=(1,1,……,1)_{d_e},R_t=(r_t,r_t,……,r_t)_{d_e}\)
m 是整個資料集的中位數評分率,它用於區分類似成功的嘗試和類似失敗的嘗試

3.2 時間增強的迴圈層

一個標準的LSTM塊可以用以下方程來表示:
在這裡插入圖片描述
對於普通的線上輔導系統,獲得每個學生的完整學習軌跡(即學生嘗試過的每個問題都是不現實的)。換句話說,模型需要能夠處理缺失的資料和樣本之間的不同時間間隔。因此,如果應用一個標準的LSTM,主要存在兩個問題:

  • 首先,長時間和短時間幾乎肯定會導致學生能力發生不同程度的變化,但最初的LSTM記憶塊沒有考慮到時間特徵
  • 其次,對於那些學習能力相對較強的學生來說,他們的掌握水平在一段時間後可能會變得更高——無論在這段時間內是否有記錄的(題目,回答)對。

然而,由於輸出 \((f_t)\) 位於[0,1]之間的遺忘門限制,歷史單元狀態 \(C_{t−1}\) 在標準LSTM中總是減弱。總之,原始的LSTM不能對這種與時間相關的能力增長或下降進行建模(或預測)。
在這裡插入圖片描述

如圖2所示。為了模型能夠具有預測時間間隔後學生能力波動的能力,作者首先在原始隱藏狀態 \(h_{t−1}\) 之後增加一個額外的密集層來引入時間資訊;然後用一個名為 zoom gate 的新結構來取代遺忘門。改進後的記憶體塊可以用數學方法表示如下:
在這裡插入圖片描述

  • \(s_t\) 是時間增強的隱藏狀態,它儲存了學生在開始回答問題 \(q_t\) 之前的知識條件
  • z 表示縮放門,\(v_t∈R^{d_t}\) 表示步驟 t 處的時間戳。使用二進位制序列化向量 \(v_t\) 來表示時間戳:
    • 首先,將格式為“%Y-%m-%d%H:%M:%S”的時間戳轉換為浮數(以秒為單位)
    • 然後除以比例因子 ε 並將其轉換為16位二進位制向量

一般來說,只要得到的時間戳向量可以覆蓋最長的序列(即第一個輸入和最後一個輸入之間時間間隔最長的序列),就可以選擇任意合適的尺度因子。對於每個學生,第一個回答問題的時間戳總是設定為零。

如方程式(16),縮放門(zt)的輸出,用於加權歷史單元格的狀態。在TC-MIRT中,根據當前的輸入訊號(包括當前的時間戳),可能想要削弱或加強歷史單元格狀態的每個維度,因為學生的能力可能會隨著時間的推移而改變。從理論上講,當門輸出較小時,sigmoid啟用和tanh啟用函式都能在一定程度上削弱單元格狀態。

然而,作者實證發現,tanh啟用函式始終優於simoid啟用函式(以很小的幅度)。作者認為,通過允許負輸出,縮放門在放大時間間隔的影響和建模學生能力的波動方面變得更加靈活。
此外,在方程13)尺度因子 \(λ_k\) 和偏置 \(λ_b\) 也可以通過改變門輸出 \(z_t\) 的範圍來實現更顯著的減弱和增強效應。

例如,當 \(λ_k\)=1.05和 \(λ_b\)=0.05時,門輸出zt的範圍從[−1.0,1.0]變為[−1.0,1.1],這意味著當 \(z_t\) 的值在(1.0,1.1]之間時,歷史能力狀態 \(C_{t−1}\) 可以加強。

請注意,在Eq(13),變放門也將 \(C_{t−1}\) 作為輸入的一部分,這通常被稱為窺視孔連線。使用窺視孔結構在縮放向量 \(z_t\) 的計算中引入長期能力資訊,這是由經驗教學經驗激發的:優秀學生和困難學生之間的差距越來越大。換句話說,縮放效應的大小部分受學生的學習歷史的控制。

3.3 概念增強模組

如上所述,缺乏可解釋性是大多數基於深度學習的KT模型的最大障礙之一。將心理測量模型和深度網路相結合似乎是一個很好的解決方案。深度irt試圖通過學生能力網路和困難網路來生成可解釋的引數。但是,它所使用的內存矩陣是隨機初始化的,不應用外部資訊來監督每個概念槽的分佈或概念之間的內部關係。更具體地說,我們無法理解某個概念槽的潛在物理意義,也無法將一個隱藏的狀態對映到技能空間。
為了解決這一問題,我們提出了一個基於二引數MIRT函式和概念矩陣的概念化模組

3.4 MIRT.

在TC-MIRT中,作者使用了一個2引數的補償性MIRT(M2PL)模型來估計在時間 t 時出現正確響應 \(p_t\) 的概率。
在這裡插入圖片描述
其中,\(a_t∈R^K,θ_t∈R^K和d_t∈R\) 分別表示專案區分度、學生能力和專案難度。
然後,應用一個簡單的均方誤差損失函式,如下:
在這裡插入圖片描述
與特定技能對應的k維特徵空間也被稱為 θ 座標。將公式(19)中的指數項分解為:
在這裡插入圖片描述
其中,\(b_{t,j}\)表示第 j 個 θ 座標的專案難度。本文通過將標量 \(d_t\) 擴充套件到一個向量 \(b_t∈R^K\)中,從而可以直接比較每個θ座標中學生的能力和專案難度。

3.5 Concept Matrix

為了生成適當的M2PL引數並提高模型的可解釋性,本文提出了一個概念矩陣 \(M_c∈R^{d_c×K}\),它將學生的行為問題特徵投射到相同的空間中。 \(M_c\) 的每一列都可以看作是一個概念標籤的嵌入,而 \(d_c\) 則是嵌入的大小。

文章提出了 Concept2Vec 來學習由上下文間相關資訊豐富的概念嵌入。在 Concept2Vec 中,繼承Word2Vec的假設:“如果兩個單詞具有相似的上下文,那麼它們將具有相似的語義。”,並利用問題層次結構來形成訓練語料庫。在實際的教育資料集中,問題的層次結構可以是包含一組相關問題的任何東西——一門課、一本書或一個章節。
在這裡插入圖片描述
如圖3所示,為了形成每個訓練樣本,本文將每個問題層次下的所有問題的概念標籤連線起來,刪除重複的標籤。然後,利用連續bag of words(CBOW)架構,其中預訓練模型從周圍概念的視窗中預測目標概念。在預訓練任務完成後,\(M_c\) 將在效能預測任務的訓練過程中進行微調。

在TC-MIRT中,本文使用一個能發現 θ 座標之間內在關係的權重向量作為區分項。具體來說,a 的計算方法如下:
在這裡插入圖片描述
其中,\(I_t\) 為輸入技能 \(k_t\) 的索引列表,\(\hat{m}_t\)為輸入概念嵌入的平均池化向量。Then,取 \(\hat{m}_t\) 和概念矩陣的點積來形成權值向量 \(a_t\)。 公式(21)、(22)和(23)的過程本質上等同於注意機制:平均知識嵌入 \(\hat{m}_t\) 作為查詢,概念矩陣 \(M_c\) 由關鍵插槽組成。

在這種情況下,輸出 \(a_t\) 實際上是輸入概念和 bank 中每個概念之間的相似性,從而作者在本模組中做出了核心假設:當模型預測特定輸入練習 \(q_t\) 時,重點應該是放上 \(k_t\) 對應的 θ 座標以及其他與 \(k_t\) 密切相關的技能。
換句話說,具有相似嵌入的概念應該具有更強的內部相關性,並共同為模型預測做出貢獻。

max(·) 函式來將 \(a_t\) 中的所有負元素轉換為零:

  • 希望我們的權重向量具有與標準IRT中的辨別項相似的非負元素
  • 希望消除具有負注意權重的非相關概念所帶來的副作用

其他M2PL引數通過以下確定:
在這裡插入圖片描述
可以看出,專案難度 \(b_t\) 依賴於組合問題向量 \(x_t\),而學生能力 \(θ_t\) 依賴於時間增強的隱藏狀態。此外,通過概念矩陣將它們都對映到 θ 座標上,使我們可以理解模型引數的實際意義。

4. 實驗

4.1 資料集

在這裡插入圖片描述

  • iFLYTEK 由科大訊飛有限公司提供,由廣泛使用的線上輔導系統薛收集,為高中生提供全年教育資源。在科大訊飛研究中,學生的回答用 [0.0,1.0] 之間的分數來表示。
  • KDD 這個開源資料集是用於教育資料探勘挑戰的KDDCup2010資料的一部分。原始記錄由步驟序列(子級)組成,而不是問題(父級)。在這種情況下,我們將每個問題的評分率計算為成功步驟的比率(不請求任何提示)。例如,如果一個問題有三個步驟,而一個考生在其中兩個步驟中取得了成功,則回答將變為0.66。

4.2 實驗設定

  • 資料分割槽。 在每個資料集上,首先隨機抽取90%的學生,並使用他們的學習記錄作為訓練集;剩下的10%學生的記錄作為測試集。然後,從測試集中刪除所有在訓練集中看不見的問題,以確保在實驗中,KT模型不會出現看不見的問題。從每個訓練集中,還抽取10%的學生作為驗證集來開發我們的模型。對於評估的每個模型,在每個資料集上執行3次,並使用平均結果作為最終結果。

  • 引數設定。模型的批為32,初始學習率為0.0001。應用一個指數學習率衰減,衰減率為0.05。在這兩個資料集中,都使用一個16位向量和一個100(ε)的比例因子來表示時間戳,從每個學生的第一個問題的最大時間間隔為\(2^{16}\) ∗100秒(約2.5個月)。\(d_e、d^k_e和\ d_c\) 分別被設定為經驗值75、75和 32。圖4顯示了具有不同縮放門上界的TC-MIRT的模型效能,可以看出,當上界設定為1.1時,得到了最優結果。
    在這裡插入圖片描述
    此外,本文還實現了Dropout(dropout=0.5)和批歸一化等演算法,以避免過擬合,這對模型效能有輕微的提高。在這兩個資料集上,最多訓練模型50個epochs以獲得最佳效能,所有可訓練權值都用Xavier初始化初始化,並用Adam優化演算法進行更新。

  • 模型比較。為了幫助理解TC-MIRT中每個關鍵提案所帶來的具體影響,論文實現了以下兩個TC-MIRT的簡化版本:

    • 1.T-MIRT:在概念增強模組中,有兩種設計帶來了模型的可解釋性——預先訓練好的概念矩陣和基於輸入概念計算出的概念權重(見方程式(22)和(23)):前者提供了發現概念之間相關性的先驗知識,而後者作為一個監督訊號,將theta座標投射到實際概念中。在T-MIRT中,通過以下方法刪除了這兩種設計:

      • 首先,用一個隨機初始化的可訓練權重 W 替換概念矩陣:
        -在這裡插入圖片描述
      • 其次,用以下計算的區分項替換概念權重:
        在這裡插入圖片描述
    • 2.Deep-MIRT:在Deep-MIRT中,進一步從T-MIRT中刪除了時增強元件,用標準的LSTM單元替換了時增強單元。

4.3 結果與分析

  • 評估指標。對於具有二進位制響應的資料集,當考慮二進位制響應時,通常使用曲線下面積(AUC)作為評價度量。然而,一些研究人員發現,AUC對浮點數目標的效果較差。因此,在本實驗中,選擇均方根誤差(RMSE)作為主要度量。

    • Note. AUC仍然是作為一個參考指標來計算的。如果\(r_t≥m,讓r_t=1,否則r_t=0\)

    為了對模型引數的可解釋性進行數值評估,文章還提出了以下三個指標:
    在這裡插入圖片描述
    其中PCC(·,·)為兩個變數之間的皮爾遜相關係數,α 和 β 分別表示不同學生和問題的集合。

    學生因變數 \(ER_i=(E(r_i,c_1),…,E(r_i,c_M))\),其中 \(E(r_i,c_1)\) 表示學生 i 在所有帶有概念標籤 \(c_1\) 的問題上取得的平均得分率。

    類似地,題目相關變數 \(\{VR_j,ER_j\}\)
    \(VR_j= (Var(r_{c_1},j),…,Var(r_{c_M},j))和ER_j=(E(r_{c_1},j),…,E(r_{c_M},j))\),其中\(Var(r_{c_1},j)\) 表示所有學生在概念標籤 \(c_1\)在問題 j 上的得分率的方差。

    這些度量被用於直觀地度量每個θ座標和相應的概念標籤之間的相關性。

    對一系列問題進行預測的可解釋的KT模型,模型輸出的一致性也很重要。本文采用了[27]中提出的兩個指標 (m1和m2) 來評估模型的一致性:
    在這裡插入圖片描述
    其中 \(k^i_t\) 是 t 時刻問題的多熱概念標籤,\(T_i\) 表示學生 i 的問題序列的總長度。\(g^i_{t−1}∈0,1\) 是上一步的ground-truth 輸出。
    為了將評分比轉換為二進位制輸出,\(if\ r^i_t≥m, g^i_t=1\),否則,\(g^i_t=0\) 其中 m 為表1所示的評分率的中位數。

    當一個學生在某個問題上失敗時,我們更傾向於在下一步獲得較低的能力,反之亦然。因此,m1和m2的值越高,從預測一致性的角度來看,模型就越好。m1和m2的主要區別在於,m2同時考慮了變化的方向和幅度

  • 效能預測。如圖5顯示了KT模型在整個訓練過程中的驗證損失,總的來說,TC-MIRT的收斂速度與其他模型相當,說明增強後的模組對模型擬合沒有影響。在科大訊飛和KDD上的模型效能 如表2所示,總的來說,線上場景可以通過其動態學習機制產生顯著的效能改進,但我們的離線方案(T-MIRT和TC-MIRT)在RMSE和AUC上始終優於線上模型

    在這裡插入圖片描述
    在這裡插入圖片描述
    此外,由於T-MIRT的效能遠優於DeepMIRT,故認為時間增強元件在提高效能預測能力方面發揮著重要作用。

  • 趨勢預測。與標準的IRT相比,TIRT也產生了顯著的改進,顯示了時間資訊在KT任務中的有效性。為了進一步評估我們的建議的趨勢預測能力,我們通過在原始測試資料中隨機減少10%、30%、50%、50%、70%的互動,構建了4個不完整的測試集。在科大訊飛上,每個學生的記錄都跨越了一個高中學年,因此不完整資料中的問題會發生巨大的變化,這使得KT模型很難做出精確的估計。如圖6、我們的建議能夠抵抗不同級別的資料缺失。當省略超過50%的互動作用時,TC-MIRT具有強大的趨勢預測能力,其RMSE值比包括線上TIRT在內的其他模型要小得多。

  • 可解釋的弱點診斷。圖8(a)表示所有概念之間的 M×M 協同矩陣,位置值 (i,j) 表示“問題層次”級別中 \(c_i和c_j\)之間的歸一化共現頻率。例如,如果 \(c_i和c_j\) 同時出現在10個層次上,而 \(c_i\)存在於20個層次上,則標準化頻率將為10/20=0.5。(i, j) 處的數值越大,ci和cj相關的機會就越大。
    在這裡插入圖片描述

    同時,圖8(b)顯示了經過預訓練和微調後的概念矩陣中所有嵌入之間的餘弦相似性矩陣。可以看出,這兩個矩陣具有相似的分佈,特別是在熱區域,說明微調過程沒有影響概念矩陣的可解釋性,概念之間的相關性得到了很好的保持。

    學生弱點的診斷對於個性化的運動推薦至關重要,它也是評估KT框架的可解釋性的一個令人信服的標準。在TC-MIRT中,這是通過使用M2PL引數 a、b 和 θ 來實現的。

    為了舉一個如何使用TC-MIRT來診斷學生的弱點的例子,從KDD資料集中隨機選擇一個學生,以及一個模型認為學生無法正確回答的隨機問題\((q_r)(p_r=0.32)\)
    在這裡插入圖片描述

    問題 \(q_r\) 有兩個人類標記的概念\(\{c_0, c_2\}\)。結果的引數如圖9所示。可以看出,模型在 \(c_2和c_5\) 上生成了最大的指數項,而 \(c_0\) 則不在在前五名名單中。在KDD中,知識概念 \(c_2和c_5\) 是指分別指尋找 y,任何形式;尋找 x,任何形式。

    直觀地說,這兩種技能(find x, find y)是高度相關的,用於測試類似的考生的能力。如圖8c所示,概念 \(c_2和c_5\) 的概念嵌入具有相對較高的餘弦相似度,約為0.82,這也解釋了我們模型的結果。
    在這裡插入圖片描述
    另一個人類標記的概念 \(c_0\) 指的是識別單位,這是一種常見的技能,經常出現在不同的問題中,因此模型中沒有給它分配高權重。
    總之,可以把這種失敗的嘗試歸因於主要在 \(c_2和c_5\) 方面的不熟練。

表3顯示了這兩個資料集的測試集上的模型引數的PCC分數。由於MIRT和T-MIRT中沒有提供與概念相關的資訊,所以沒有觀察到明顯的相關性。最有可能的解釋是,對於TC-MIRT來說,預先訓練的概念嵌入使 θ 座標和實際技能之間有更好的一致性。
此外,與MIRT和T-MIRT相比,TC-MIRT也顯示出更好的一致性,在兩個資料集上的m1和m2的值都更高。這主要是因為TC-MIRT的模型預測在很大程度上取決於概念權重 \(a_t\),而概念權重也作為學生能力 \(θ_t\) 的正則器發揮作用,使 \(θ_t\) 的變化(在相關概念上)與之前的正確性 \(o_{t-1}\) 更加一致。
在這裡插入圖片描述

總結

本文提出了一個同時利用M2PL中的可解釋引數時間增強網路的知識狀態建模能力的KT框架。具體來說,縮放門用於執行趨勢預測,概念矩陣用於使專案和使用者引數適應 θ 座標,使模型能夠進行概念級的弱點診斷。

在兩個資料集上實驗表明,TC-MIRT在效能預測和可解釋性方面優於最先進的KT模型。這項工作有兩個潛在的未來方向。

  • 首先,學生在TC-MIRT中的能力有時會在互動之間發生劇烈變化。因此,希望利用不同型別的規律性來生成更平滑的轉換。
  • 其次,由於許多教育系統都是建立在現有的知識圖之上的,我們將考慮使用圖嵌入(而不是一個簡單的概念矩陣)來帶來更復雜的概念相關資訊。

相關文章