“翟天臨”剋星？哥本哈根大學開發反“槍手”AI，識別作業代寫準確率接近90%

大資料文摘出品

編譯：曹培信、周家樂

隨著畢業季的鄰近，翟天臨又一次被網友們罵上了微博熱搜。

翟的論文抄襲事件過後，許多高校都加強了論文評審標準，更有嚴格的院校連非畢業生的論文結課都要查重。

許多深夜改論文的學生於是結伴來到微博@翟天臨：你睡了嗎？你怎麼睡得著？我還在改論文！你配睡覺嗎！

“翟天臨”剋星？哥本哈根大學開發反“槍手”AI，識別作業代寫準確率接近90%

圖片來自微博

翟天臨自己可能也沒有想到，竟然陰差陽錯對中國高校教育做出了卓越的貢獻。

然而，也有學渣表示，以後查重這麼嚴，抄襲是不可能了，只能找人代寫了。

早有媒體曝光過學術圈“論文代寫”的產業鏈。據第一財經報導，相關淘寶搜尋的本科文科論文每千字200元左右。

“翟天臨”剋星？哥本哈根大學開發反“槍手”AI，識別作業代寫準確率接近90%

不過，這條“學術歪路”也要被AI堵死了。近日，哥本哈根大學的研究人員的最新研究稱，剛剛開發出一款“反槍手代寫”的AI系統。

這款系統意圖通過智慧寫作分析技術，來檢測論文作弊。可以根據你的寫作習慣，確定論文究竟是你自己寫的作業還是由他人代寫。

根據對13萬份書面作業的分析，科學家們可以以近90%的準確率檢測出學生究竟是自己寫的作業，還是由代筆撰寫。

基本上可以達到“代寫”作業一抓一個準的結果了。

高中代寫成風，哥本哈根大學的神操作

這套針對學生論文作弊行為的研究，已經在哥本哈根大學電腦科學系（DIKU）進行了幾年了，最初，這款研究是針對丹麥的高中生進行的。

在丹麥，高中目前主要使用的作業查重平臺叫做Lectio，可以用來檢查學生的作業中是否有段落是直接複製先前提交的作業的。

然而，隨著各類線上服務平臺的盛行，在丹麥高中生中，找人代寫作業變得越發容易。

面對這種情況，學校一直缺乏有效的檢測手段。

學習軌跡專案或“SRP”（丹麥語的“Studie Retnings Projekt”）是丹麥高中畢業生的必修跨學科課程，也是一項非常重要的書面作業。在這個專案中的作弊現象尤其引人注目。

由於SRP對於畢業十分重要，很多學生們在丹麥競拍網站Den Bla Avis上釋出他們的寫作任務來找人代寫。

和中國的老師和大多數查重系統一樣，Lectio只能查重，沒法判斷一份作業是否是找人代寫的。

哥本哈根大學的一些院系一直和很多高中有著SRP專案的合作，深受代寫作弊行為之害，一直在探究解決之道。

這所大學的電腦科學系DABAI專案組決定教教這些偷懶的高中生們“做人”。

DABAI（丹麥大資料分析驅動創新中心）是一個成立於2016年的丹麥國家研究中心。除了研究機器學習的高效演算法，這個研究小組本來就對學生教育特別關注。之前，他們曾研究了“優化學生的個性化學習”、“提高教師洞察力”等教育專案。

“翟天臨”剋星？哥本哈根大學開發反“槍手”AI，識別作業代寫準確率接近90%

名叫“槍手”的反槍手神器

這個防作弊程式被叫做Ghostwriter（槍手），它本質上屬於一種基於機器學習和神經網路技術的一款文字分析程式。

專案組成員Stephan Lorenzen博士稱，這款程式可以比較該學生最近提交和以前提交的文章來識別寫作風格的差異。

“程式會關注單詞長度、句子結構以及單詞的使用方式等諸多特徵。例如，它會察覺‘for example’被寫成了‘ex’，還是‘e.g.,’。”

其資料集來自為丹麥高中提供Lectio平臺的MaCom公司，該公司覆蓋了丹麥90%以上的高中，他們為GhostWriter專案的研究人員提供了13萬份不同高中學生書面作業。

這個研究組認為，這款產品非常具有實際效用，很多學校對於找出“論文究竟是誰寫的”這個問題有著越來越高的技術需求。

但Stephan Lorenzen博士也認為，“在此之前，還需要認真討論一下應用這項技術所面臨的倫理問題。我們不能把這個程式得到的結論作為判別是否作弊的唯一標準，更應該把它看作一份輔助性的證據。”

Ghostwriter是怎麼工作的？

Ghostwriter程式使用Siamese 神經網路來區分不同文字的寫作風格：通過大量資料的訓練，學習不同寫作風格的外在表現（representation），然後進行比對。

這個專案分兩步來解決作者身份驗證問題。首先是解決了計算兩個文字之間寫作風格相似性的問題，主要通過使用Siamese網路學習相似度函式s：T×T→[0,1]。其次是再解決作者A的驗證問題，通過比對未知作者文字X和已知是作者A的文字T之間的相似性。

在網路方面，他們考慮使用不同的輸入通道考慮幾種不同的體系結構（例如，char，word，POS-tags），最終確定了一種表現最佳的網路架構：

“翟天臨”剋星？哥本哈根大學開發反“槍手”AI，識別作業代寫準確率接近90%

Best performing network

編碼部分包括一個字元嵌入（Embd），然後是兩個不用的卷積層，每個卷積層後面都有一個全域性最大池化層（GMP）。

在比較部分，他們首先計算合併層中的編碼之間的絕對差值，然後，應用4個密集層，每層有500個神經元，最後使用具有兩個輸出的softmax層來進行歸一化。

他們將資料集分為三份，T-train用於訓練，T-val用於訓練提前停止和selecting Cs，T-test僅用於估測試模型。

“翟天臨”剋星？哥本哈根大學開發反“槍手”AI，識別作業代寫準確率接近90%

經過訓練，模型的準確率達到了87.5%。

“翟天臨”剋星？哥本哈根大學開發反“槍手”AI，識別作業代寫準確率接近90%

最後實現的功能就是，當學生提交作業時，該網路會將其與以前的作業進行比較。對於每個作業，神經網路都會計算出一個百分數，用於表示新舊作業的相似性。然後，通過綜合考慮新舊作業相似性、交作業時間等多種因素計算出一個加權平均值。這個最終值就可以用來表示新作業和學生寫作風格之間的相似性。

這一研究已經被發表在一篇名為《識別高中代寫“槍手”》的論文中。

“翟天臨”剋星？哥本哈根大學開發反“槍手”AI，識別作業代寫準確率接近90%

論文連結：

https://www.science.ku.dk/presse/nyhedsarkiv/2019/fristet-til-at-snyde-med-eksamensopgaven-kunstig-intelligens-opdager-dig-med-90-procent-sikkerhed/Detecting_Ghostwriters_in_High_Schools.pdf

除了論文，還能與警方合作篩查偽造文字

除了代寫作業，Ghostwriter的技術也可以應用於社會的其他地方。

例如，該程式可輔助警方的文件審查員執行各類檔案的真偽分析任務，比如一份商業合同是否是偽造的；或者一個離奇的自殺案中，死者留下了一封遺書，這封遺書是不是死者本人寫的等等。

“與警方合作將是一件有趣的事情。警方現有的方法是聘用檔案審查員來定性的比較文字之間的相似性和差異。而我們的方法則適用於大資料並自動找到其中潛藏的模式。我認為結合兩者將有利於警察開展工作。”Lorenzen說，他強調這裡也同樣需要討論其面臨的倫理問題。

這項利用人工智慧來檢測作業中作弊行為的技術，具有廣泛的應用前景。

目前，它還被用來分析Twitter文字，以確定文字內容是由真實使用者撰寫的，還是由水軍或機器人編寫的。也就是說，淘寶店鋪僱傭水軍好評，很有可能也能被識別出來。

相關報導:

https://www.sciencedaily.com/releases/2019/05/190529145048.htm

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/31562039/viewspace-2646864/，如需轉載，請註明出處，否則將追究法律責任。

“翟天臨”剋星？哥本哈根大學開發反“槍手”AI，識別作業代寫準確率接近90%

高中代寫成風，哥本哈根大學的神操作

名叫“槍手”的反槍手神器

Ghostwriter是怎麼工作的？

除了論文，還能與警方合作篩查偽造文字

相關文章