困惑度的計算

continu~發表於2024-10-16

困惑度公式:


困惑度的定義如上。
具體裡面這個條件機率機率怎麼計算呢?
假設我們的生成模型生成了一個 shape為(N,D)的序列。表示N個字,序列長度,序列中,每個token的機率分佈維度為D,也就是字典中共有D個字。
由於我們是自迴歸模型,基於前k個字預測第K+1個字。所以這個N*D序列中的每一行本身就表示一個條件機率。因此,假設從這個機率分佈中取樣了N個字出來。
每個字的條件機率就是該字在矩陣中對應機率。


相關文章