閱卷是老師教學工作中非常重要的一環,但也是耗時費力的一環。如果機器能夠替代或輔助老師對考試和作業評分,將極大減輕老師負擔,有效支援教育的結果評價、過程評價和個性化 “因材施教”。過去幾年,哈工大訊飛聯合實驗室在語文作文自動評閱方向進行了深入探索和落地實踐,努力構建人工智慧與教育領域深度結合的關鍵入口,為科大訊飛在教育領域的佈局,持續輸送動力。
作文自動評閱技術
評閱,即既要給出分數,又要提供批改和點評。不同的應用場景對評分與批改功能會有所側重。在大規模考試智慧閱卷中,準確、高效評分是主要需求,而面向課堂作業和考試等,“有營養”的點評和批改反饋必不可少。
作文自動評分可以視為一個監督學習的過程,利用機器學習演算法根據少量人工評分的樣本學習一個預測模型,其中的關鍵是構建和利用有效的特徵來描述作文、指示作文的質量。
傳統的方法利用自然語言處理淺層分析的結果構建特徵,如文章的長度、段落數、詞彙豐富性等。不難發現,很多特徵與人評價作文時考察的維度和深度相距較遠。以高考作文評分規範為例,評判學生作文將考察其題意、內容、語言、文體等基礎等級,還要考察深刻、豐富、文采、創意等發展等級,這為母語作文自動評分提出了巨大的挑戰。近年來,基於深度學習的端到端學習方法也被應用於作文評分,作文被抽象地表示為分散式向量,近來一些研究成果顯示此類方法可以取得很好的效果,但存在一個明顯問題是可解釋性較差。
圖1 語文作文自動評閱功能圖
針對這些問題,如圖1所示,我們提供包括異常檢測、多維度批改、總評與分項評語等一體化的語文作文自動評閱解決方案。除了使用常用的淺層表徵特徵外,也針對諸如文字通順、文采、立意分析、篇章結構等難度較高的維度進行探索。語法錯誤診斷。以預訓練語言模型為基礎,結合少量標註資料和大規模自動構建的偽資料,進行錯別字、語法以及標點、成語等多型別錯誤識別。在2018年國際中文語法診斷比賽CGED中獲得了四項指標中語病型別、定位、修改第一名,語病識別第二名,綜合排名第一名[1]。推出智慧文字校對系統(http://check.hfl-rc.com/),重點解決校對行業痛點,輔助文書質檢、創作者、媒體行業、教師等提升寫作質量。文字語法錯誤診斷為作文自動評閱提供了強有力的字詞級別診斷功能,為教師減負與學生能力診斷提供有力的工具。
圖2 文字校對主要內容和過程
篇章結構質量評估。作文評分需要篇章級的文字理解,如篇章結構分析。應該如何描述和評價作文的篇章結構呢?針對議論文,我們主要透過識別句子和段落的論辯角色(如引論、主旨、論點、論據等)來表示篇章結構[2,3],提出了層次多工學習方法融合句子級和段落級的篇章角色表示進行議論文篇章結構質量評價[3];針對記敘文,可以利用詞彙鏈和事件鏈等結構刻畫篇章結構,我們也提出透過識別記敘、議論、描寫、抒情、說明等表達方式作為篇章單元角色來描述記敘文的結構[4]。圖3 採用論辯角色描述議論文的篇章結構
圖4 採用表達方式描述記敘文的篇章結構
優美表達識別。文采是衡量作文質量的重要考察方面之一,我們透過對優美句子、多種修辭手法、描寫手法的識別,從文采方面對學生的作文進行評閱。我們利用眾包手段從多個來源採集人們推薦的優美句子表達、描寫表達等,構建識別模型。修辭手法是創造性語言,形式多樣、不易泛化,修辭手法識別需要充分利用相應的認知理論作為指導與資料驅動方法相結合。針對比喻[5]、排比[6]、擬人、引用等常用修辭手法,分別設計了相應的識別與評價方法。我們還針對多種細粒度的描寫型別進行識別與分析。圖5 作文文采識別與評價示例
這些不同層面的深度語言分析擴充了傳統作文自動評分系統考察的評分維度,構建相應特徵有助於提高評分模型的鑑賞判別能力和評分準確性,併為評分提供了更好的可解釋性。作文自動評閱技術的應用
聯合實驗室還研究了面向作文的抄襲檢測、部分文科簡答題自動評分、評語自動生成等技術和功能,這些技術與作文自動評分技術一起已應用於科大訊飛作文智慧閱卷系統。目前系統主要提供:(1)答卷質檢,包括檢查空白題、亂寫內容、疑似抄襲題幹、疑似抄襲網路範文、疑似考生之間抄襲等;(2)智慧評卷服務:對語文作文進行計算機自動評分;(3)人工閱卷質檢檢查,利用機器評分檢測和檢測人工閱卷過程中可能出現的誤差。
圖6 科大訊飛語文作文智慧評卷流程
對於文科主觀題評分,系統首先透過版面和圖文識別獲得題目和學生作答內容,而後利用智慧定標篩選具有代表性的學生作文進行專家定標評分並學習評分模型,最後對機評結果進行彙總和分析。為了提高定標資料標註的效率和效果,我們提出“專家隨機抽取+智慧挑選樣卷+聚類分段補充”的定標集選取方法[7]。提升了評分模型對於各分數段的建模能力,符合高考等考試環境下考生成績呈正態分佈的特點,擴充了對專家評分和閱卷教師評分的綜合學習能力,使得計算機智慧輔助評分系統能夠透過有限的定標資料,更加全面地理解和掌握評分標準。目前,科大訊飛機器智慧閱卷技術已經應用到多地中高考,每年服務考生超過600萬。經過對人機評分結果的對比分析,自動評分系統在評分一致率、平均分差、相關度等指標方面都已接近人工評分水平。以2017年安徽高考語文作文驗證為例,語文作文智慧評分420070份,佔全部樣本量的99.82%,表1和表2給出了定標集下對所有語文作文待評樣本進行智慧評分後得到的人機評分的對比情況。如表1所示,機器評分得到的平均分與人工評分平均分分差均小於1分,標準差基本一致。如表2所示,機器評分與報導分的相關度為0.95,評分一致率為95.24%,接近人工1評與人工2評的相關度和一致率。智慧評分整體效果優良,說明智慧閱卷系統能夠從定標集中學習出與評卷教師掌握評分標準相當的水平[8]。
表1 語文作文人機平均分和標準差對比表[8]
注:報導分為考生的實際得分,在雙評模式下經評卷教師1評、2評、仲裁等環節最終得出。
表2 語文作文人機評分相關度比較表[8]
作文自動評閱技術被應用到課堂作業、考試與日常學習中。聯合實驗室將語文作文自動評閱技術與具體業務場景結合,先後應用於教師助手、科大訊飛學習機、漢考等業務端,為教育發展持續助力。
圖7 科大訊飛學習機語文作文自動批改
總結與展望作文以及文科主觀題自動評閱具有明確的研究意義和應用場景。前期的研究表明多維細粒度的自動作文評閱能夠有效地提高作文篇章表示的深度、作文評分的可解釋性和反饋的豐富程度,文科主觀題自動評分能夠在中、高考真實驗證場景下達到接近人工評分的水平。但是,要想真正實現讓機器像人一樣去欣賞和批判寫作依然是非常困難的。例如,對文章的立意思辨、篇章結構、新奇創意等方面的理解非常初級;修辭手法識別目前也主要限於資料驅動方法而沒有充分考察這些語言運用手段背後的認知原理;如何持續提高機器的審美能力和鑑別水平依然是開放問題。目前,作文自動評分系統已經可以完成閱卷質檢等相關任務。在不遠的將來,利用自動評分系統取代人工雙評之一,減輕閱卷人力、財力負擔,促進自動批改在課堂教學場景落地,輔助教師課堂教學,應該是比較務實和預期可達的目標。
•••
哈工大訊飛聯合實驗室是科大訊飛針對“訊飛超腦”專案計劃,重點引進和佈局的核心研發團隊之一。規劃目標是在語言認知計算領域進行長期、深入探索,並已在機器閱讀理解、自動閱卷、類人答題、人機對話、語音識別後處理、社會輿情計算等前瞻課題研究取得豐碩成果。語文作文自動閱卷方向由聯合實驗室與首都師範大學合作推進。
參考文獻
[1] Ruiji Fu, Zhengqi Pei, Jiefu Gong, Wei Song, Dechuan Teng, Wanxiang Che, Shijin Wang, Guoping Hu, and Ting Liu. Chinese grammatical error diagnosis using statistical and prior knowledge driven features with probabilistic ensemble enhancement. In Proceedings of the 5th Workshop on Natural Language Processing Techniques for Educational Applications, 2018.
[2] Wei Song, Ruiji Fu, Lizhen Liu, and Ting Liu. Discourse element identification in student essays based on global and local cohesion. EMNLP 2015.
[3] Wei Song, Ziyao Song, Lizhen Liu, and Ruiji Fu. Hierarchical Multi-task Learning for Organization Evaluation of Argumentative Student Essays. IJCAI 2020.
[4] Wei Song, Dong Wang, Ruiji Fu, Lizhen Liu, Ting Liu, and Guoping Hu. Discourse mode identification in essays. ACL 2017.
[5] Lizhen Liu, Xiao Hu, Wei Song, Ruiji Fu, Ting Liu, and Guoping Hu. Neural multitask learning for simile recognition. EMNLP 2018.
[6] Wei Song, Tong Liu, Ruiji Fu, Lizhen Liu, Hanshi Wang, and Ting Liu. Learning to identify sentence parallelism in student essays. COLING 2016.
[7] 何屹松, 孫媛媛, 張凱,付瑞吉. 計算機智慧輔助評分系統定標集選取和最佳化方法研究. 中國考試,2020(1).
[8] 何屹松, 孫媛媛, 汪張龍, 竺博. 人工智慧評測技術在大規模中英文作文閱卷中的應用探索. 中國考試,2018(6).