“翟天臨”剋星?哥本哈根大學開發反“槍手”AI,識別作業代寫準確率接近90%
大資料文摘出品
編譯:曹培信、周家樂
隨著畢業季的鄰近,翟天臨又一次被網友們罵上了微博熱搜。
翟的論文抄襲事件過後,許多高校都加強了論文評審標準,更有嚴格的院校連非畢業生的論文結課都要查重。
許多深夜改論文的學生於是結伴來到微博@翟天臨:你睡了嗎?你怎麼睡得著?我還在改論文!你配睡覺嗎!
圖片來自微博
翟天臨自己可能也沒有想到,竟然陰差陽錯對中國高校教育做出了卓越的貢獻。
然而,也有學渣表示,以後查重這麼嚴,抄襲是不可能了,只能找人代寫了。
早有媒體曝光過學術圈“論文代寫”的產業鏈。據第一財經報導,相關淘寶搜尋的本科文科論文每千字200元左右。
不過,這條“學術歪路”也要被AI堵死了。近日,哥本哈根大學的研究人員的最新研究稱,剛剛開發出一款“反槍手代寫”的AI系統。
這款系統意圖透過智慧寫作分析技術,來檢測論文作弊。可以根據你的寫作習慣,確定論文究竟是你自己寫的作業還是由他人代寫。
根據對13萬份書面作業的分析,科學家們可以以近90%的準確率檢測出學生究竟是自己寫的作業,還是由代筆撰寫。
基本上可以達到“代寫”作業一抓一個準的結果了。
高中代寫成風,哥本哈根大學的神操作
高中代寫成風,哥本哈根大學的神操作
這套針對學生論文作弊行為的研究,已經在哥本哈根大學電腦科學系(DIKU)進行了幾年了,最初,這款研究是針對丹麥的高中生進行的。
在丹麥,高中目前主要使用的作業查重平臺叫做Lectio,可以用來檢查學生的作業中是否有段落是直接複製先前提交的作業的。
然而,隨著各類線上服務平臺的盛行,在丹麥高中生中,找人代寫作業變得越發容易。
面對這種情況,學校一直缺乏有效的檢測手段。
學習軌跡專案或“SRP”(丹麥語的“Studie Retnings Projekt”)是丹麥高中畢業生的必修跨學科課程,也是一項非常重要的書面作業。在這個專案中的作弊現象尤其引人注目。
由於SRP對於畢業十分重要,很多學生們在丹麥競拍網站Den Bla Avis上釋出他們的寫作任務來找人代寫。
和中國的老師和大多數查重系統一樣,Lectio只能查重,沒法判斷一份作業是否是找人代寫的。
哥本哈根大學的一些院系一直和很多高中有著SRP專案的合作,深受代寫作弊行為之害,一直在探究解決之道。
這所大學的電腦科學系DABAI專案組決定教教這些偷懶的高中生們“做人”。
DABAI(丹麥大資料分析驅動創新中心)是一個成立於2016年的丹麥國家研究中心。除了研究機器學習的高效演算法,這個研究小組本來就對學生教育特別關注。之前,他們曾研究了“最佳化學生的個性化學習”、“提高教師洞察力”等教育專案。
名叫“槍手”的反槍手神器
名叫“槍手”的反槍手神器
這個防作弊程式被叫做Ghostwriter(槍手),它本質上屬於一種基於機器學習和神經網路技術的一款文字分析程式。
專案組成員Stephan Lorenzen博士稱,這款程式可以比較該學生最近提交和以前提交的文章來識別寫作風格的差異。
“程式會關注單詞長度、句子結構以及單詞的使用方式等諸多特徵。例如,它會察覺‘for example’被寫成了‘ex’,還是‘e.g.,’。”
其資料集來自為丹麥高中提供Lectio平臺的MaCom公司,該公司覆蓋了丹麥90%以上的高中,他們為GhostWriter專案的研究人員提供了13萬份不同高中學生書面作業。
這個研究組認為,這款產品非常具有實際效用,很多學校對於找出“論文究竟是誰寫的”這個問題有著越來越高的技術需求。
但Stephan Lorenzen博士也認為,“在此之前,還需要認真討論一下應用這項技術所面臨的倫理問題。我們不能把這個程式得到的結論作為判別是否作弊的唯一標準,更應該把它看作一份輔助性的證據。”
Ghostwriter是怎麼工作的?
Ghostwriter是怎麼工作的?
Ghostwriter程式使用Siamese 神經網路來區分不同文字的寫作風格:透過大量資料的訓練,學習不同寫作風格的外在表現(representation),然後進行比對。
這個專案分兩步來解決作者身份驗證問題。首先是解決了計算兩個文字之間寫作風格相似性的問題,主要透過使用Siamese網路學習相似度函式s:T×T→[0,1]。其次是再解決作者A的驗證問題,透過比對未知作者文字X和已知是作者A的文字T之間的相似性。
在網路方面,他們考慮使用不同的輸入通道考慮幾種不同的體系結構(例如,char,word,POS-tags),最終確定了一種表現最佳的網路架構:
Best performing network
編碼部分包括一個字元嵌入(Embd),然後是兩個不用的卷積層,每個卷積層後面都有一個全域性最大池化層(GMP)。
在比較部分,他們首先計算合併層中的編碼之間的絕對差值,然後,應用4個密集層,每層有500個神經元,最後使用具有兩個輸出的softmax層來進行歸一化。
他們將資料集分為三份,T-train用於訓練,T-val用於訓練提前停止和selecting Cs,T-test僅用於估測試模型。
經過訓練,模型的準確率達到了87.5%。
最後實現的功能就是,當學生提交作業時,該網路會將其與以前的作業進行比較。對於每個作業,神經網路都會計算出一個百分數,用於表示新舊作業的相似性。然後,透過綜合考慮新舊作業相似性、交作業時間等多種因素計算出一個加權平均值。這個最終值就可以用來表示新作業和學生寫作風格之間的相似性。
這一研究已經被發表在一篇名為《識別高中代寫“槍手”》的論文中。
論文連結:
除了論文,還能與警方合作篩查偽造文字
除了論文,還能與警方合作篩查偽造文字
除了代寫作業,Ghostwriter的技術也可以應用於社會的其他地方。
例如,該程式可輔助警方的文件審查員執行各類檔案的真偽分析任務,比如一份商業合同是否是偽造的;或者一個離奇的自殺案中,死者留下了一封遺書,這封遺書是不是死者本人寫的等等。
“與警方合作將是一件有趣的事情。警方現有的方法是聘用檔案審查員來定性的比較文字之間的相似性和差異。而我們的方法則適用於大資料並自動找到其中潛藏的模式。我認為結合兩者將有利於警察開展工作。”Lorenzen說,他強調這裡也同樣需要討論其面臨的倫理問題。
這項利用人工智慧來檢測作業中作弊行為的技術,具有廣泛的應用前景。
目前,它還被用來分析Twitter文字,以確定文字內容是由真實使用者撰寫的,還是由水軍或機器人編寫的。也就是說,淘寶店鋪僱傭水軍好評,很有可能也能被識別出來。
相關報導:
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562039/viewspace-2646864/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 準確率超90%!AI預測心臟病發作及死亡率遠勝人類AI
- 谷歌AI識別26種皮膚疾病準確率90% ,實力比肩資深專家谷歌AI
- 高效且準確,鄭州大學團隊開發新AI工具識別藥物-靶標相互作用AI
- 90後大學生開發開源作業系統核心Lencer作業系統
- 登上Nature&Science,AI「看面相」識別遺傳病準確率達91%AI
- Meta開發System 2蒸餾技術,Llama 2對話模型任務準確率接近100%模型
- “死亡演算法”:預測死亡時間準確率達90%!演算法
- 暴露了翟天臨的知網,又被區塊鏈盯上了?區塊鏈
- 李鬼見李逵——我用翟天臨的論文做了分析
- 精準識別!精確定位!AI助力幹細胞培養AI
- 智慧手機測癌症準確率達99%?
- 準確率82.5%,設計多藥理學化合物,加州大學開發新AI平臺設計未來抗癌藥物AI
- 人工智慧界的逃犯剋星不止人臉識別,聲紋識別也能助力公安追逃人工智慧
- Nature子刊,準確率達96%,AI從序列中預測蛋白-配體互作AI
- 自己動手寫作業系統(第一天)作業系統
- AI 殺人武器來臨,谷歌技術幫助美軍無人機識別更精準AI谷歌無人機
- 迄今最準確方法誕生!AI預測過早死亡風險,準確率高達76%AI
- Entrupy:AI鑑定二手奢侈品真偽準確率達99.1%AI
- 機器學習診斷準確率高達90%,讓這種疾病無處可逃機器學習
- 機器學習之分類:準確率機器學習
- 手寫識別 b友
- AI質檢優化實踐:召回率和準確率,哪個更重要?AI優化
- 三星Note 9手機首次曝光 開發代號“皇冠”
- 騰訊雲攜手招聯金融成立聯合實驗室,首槍瞄準仿冒App識別APP
- 讓機器準確「看懂」手物互動動作,清華大學等提出GeneOH Diffusion方法
- 語音學習筆記10------如何利用Deep CNN大幅提升識別準確率?筆記CNN
- 90後已經OUT了 應用開發商瞄準00後一代
- 河南版“小湯山醫院”引入阿里AI:準確率96%!阿里AI
- AI質檢最佳化實踐:召回率和準確率,哪個更重要?AI
- 準確率評價指標指標
- 【機器學習】手寫數字識別機器學習
- 90% 的 AI 企業面臨虧損,該如何在 AI 浪潮中搶灘登陸?AI
- 混淆矩陣、準確率、精確率/查準率、召回率/查全率、F1值、ROC曲線的AUC值矩陣
- 運動瘦身動作識別APP開發APP
- 【火爐煉AI】機器學習011-分類模型的評估:準確率,精確率,召回率,F1值AI機器學習模型
- [BUG反饋]OneThink1.0開發手冊書寫錯誤反饋
- 如何準備畢業論文寫作?
- Chrome新增“預設訪客模式”;手機竊聽準確率可達90%;央視曝光百萬粉絲微博大V售假Chrome模式