論文閱讀-RankME: Reliable Human Ratings for Natural Language Generation

夏殤0808發表於2020-10-09

人工評價仍然是NLG任務主流的評價方式。本文旨在提高人工評價質量。
CrowdFlower 的程式碼,但是感覺都是前端頁面的程式碼。。

相關方法

名稱全稱釋義
Likert李克特量表
MEmagnitude estimation量值估計
plan MEplain magnitude estimation簡單量值估計
RankMErank-based magnitude estimation基於排序的量值估計

ME是在這篇論文中介紹的(看3.1那一節),原文如下:

Rather than giving participants a fixed scale, we used the magnitude estimation paradigm, which is more suitable to capture robust or subtle differences between the relative strength of acceptability or grammaticality violations

ME 過程是使用了拉丁方設計,讓每一個人給句子打分(分數只有大於0就行),同一個人的打分再進行一個歸一化到0-1之間.

RankME

RankME則是讓每一個人對所有的候選句子進行一個relative ranking(RR)。但是怎麼做relative ranking並沒有之間提到,但是論文說該方法綜合了 ContinuseScale(CS)、MagnitudeEstimation(ME)、Relative
Assessment

和relative ranking最近的就是最後一篇論文,而在那篇論文中,RR的過程就是把候選句子按照句子質量,由好到壞排一下。

但是在這裡,他給了ME的打分準則,我在原文中是沒有看到的。
存疑之處

相關文章