“(某一年)(寫你最喜歡的大學)的(新增一個有聲望的名字)教授做了關於(此處摘要辯論的關鍵)的研究,研究人員發現(在這裡新增令人信服的資料),並且(這裡提供更多虛構的、有說服力的證據),這表明(此處就是你論文得分的關鍵所在!)。”
有沒有回憶起你當年背的高考英語高分模版?
近日,美國幾個州在標準化考試中上線自動評分系統。美國教育測試服務公司ETS也開始測評,是否可以在GRE(Graduate Record Examinations美國研究生入學考試)作文中引入自動評分專案。
這一事件也引起了大量爭議——計算機真的可以代替人類閱卷嗎?
儘管爭議還在進行,聰明的學生和應試老師們為了獲得更高的分數,已經開始尋找各種“高分攻略”了。
比如,開頭的那段模版,就是舊金山的一家教育培訓機構Stellar GRE的資深老師Orion Taraban,給他的學生們總結的作文模版。
他的學生一直都是這樣做的,使用他們室友的名字,並引用假專家的假研究來支援論點。他們往往都能獲得很高的分數。
Taraban老師還總結了哪些加分項呢?
“例如,寫上第一次世界大戰開始於1945年,計算機也不會覺得你寫的不對,反而會因為你細節處理的不錯而給你加分。”
“例如,你只要在寫作中使用了短語‘in conclusion’,就能得到更高的分數”。
Taraban稱,學生需要意識到他們正在為一臺機器寫作。而當他們在苦惱怎麼能寫出美麗完美、邏輯連貫且經得起考驗的段落時,他們就像是在對牛彈琴。
計算機根本無法體會到這個人究竟做了多少努力,學生也不會得到他們這些額外的知識獲得應得的分數。”
引火上身的機器評分
目前,包括猶他州和俄亥俄州在內的美國幾個州已經在標準化考試中使用自動評分。
培生集團的研究自動評分系統(Robo-Grader)已經25年了,去年,該系統對大約3400萬份涉及了州和國家的高風險測試的學生論文進行了評分。
該集團總裁、科羅拉多大學博爾德分校的研究教授Peter Foltz說,計算機通過分析人類打分的論文來“學習”如何判斷作品的好壞,然後通過自動化程式掃描這些相同的特徵,自己為文章打分。
“我們的人工智慧技術可以判斷50到100個特徵,”Foltz說。這其中不僅包括拼寫和語法等基礎知識,還包括邏輯的連貫性和流暢性,單詞的運用程度和句子結構的複雜性。
“我們已經做了大量的研究來證明機器評分是非常準確的。”
為了證明這一點,Foltz拿了一篇不那麼出色的、充斥著拼寫錯誤和句子的片段樣本文章在機器評分系統中執行,並得到了不那麼優秀的分數。
猶他州教育委員會的評估發展協調員Cyndee Carter說,開始的時候他們非常謹慎,每一篇機器評分的文章同時也由老師審閱過。
但電腦評分被證明了是“準確的”,所以猶他州現在讓機器成為絕大多數文章的唯一裁判。
在大約20%的情況下,當電腦檢測到一些不尋常的文章,或者文章的分數在兩個分數之間時,它會將這篇文章標記出來讓老師審閱。但總的來說,自動評分系統不僅讓猶他州節省了成本,也使教師能夠在幾分鐘而不是幾個月的時間內得到測試結果,Carter說。
小學和中學教育委員會委員Jeffrey C.Riley在最近的一次小學和中學教育會議上稱這一前景“令人興奮”。“我簡直不敢相信這是可能的,”他說。
教育部副局長Jeff Wulfson也提到了“過去幾年人工智慧的巨大進步”,並表示:“我問Alexa,我們是否可以用電腦來可靠地評分,她說這絕對是有可能的。”
但許多老師並不同意。
“就我而言,這個想法是不成立的,”在波士頓郊外的牛頓南高中的英語老師Kelly Henderson說,“寫作是一種藝術,而用演算法來評估這種表達形式顯然是荒謬的。”
另一位英語老師Robyn Marder也表示:“原創的想法呢?創造力表達的空間在哪裡呢?計算機評分將會錯過所有這些。”
Marder和Henderson也擔心機器評分只會鼓勵學生使用最糟糕的公式寫作。“計算機程式會獎勵什麼?”Henderson問道,“它是否會獎勵那些碰巧在結構上聽起來不錯但是實際上都是些乏味的胡言亂語的文章?”
事實證明,Henderson的問題很容易回答。
自動評分的常年批判者Les Perelman設計了一種堪稱機器評分克星的生成器來揭露他所認為的自動評分的弱點和荒謬。這個“Babel”生成器("Basic Automatic B.S. Essay Language")的工作原理就像電腦上的文字遊戲--米德比里斯(Mad Libs)一樣,能夠創造出毫無意義卻可以從機器評分那兒獲得高分的文章。
為了證明這一點,他拿出了GRE考試的一個練習題並輸入了與文章提示相關的三個詞到他的Babel生成器中。Babel生成器立即輸出了一份500字的文章,充滿了大量不知名的多音節的同義詞:
"History by mimic has not, and presumably never will be precipitously but blithely ensconced. Society will always encompass imaginativeness; many of scrutinizations but a few for an amanuensis. The perjured imaginativeness lies in the area of theory of knowledge but also the field of literature. Instead of enthralling the analysis, grounds constitutes both a disparaging quip and a diligent explanation."(“模仿的歷史並沒有,也可能永遠不會是陡然的,但卻無憂無慮地安頓在一起。社會總是會包含很多的審視,但對於一個人來說,卻是少數。摘要知識論是知識論的領域,也是文學的領域。與其說這是對分析的著迷,不如說是一種貶低的諷刺和一種勤奮的解釋。”)
“這完全沒有意義,”Perelman搖著頭說。“這不是真正的寫作。”
但這對機器評分來說並不重要。
當Perelman把這篇文章提交給GRE自動評分系統時,它得到了一個完美的分數:6/6。
根據GRE成績,這意味著它“對這個問題進行了有力的、清晰的分析,並巧妙地傳達了意義。”
Perelman嘆息道:“這太可怕了,機器在某些方面非常出色,在其他方面也很愚蠢。這個就是機器非常非常愚蠢的一種情況。”
Perelman說,由於計算機只能計算,無法理解文章的實際意義,因此論文的好壞其實是與演算法無關的。
他還說,他的Babel生成器也證明了系統是很容易被糊弄的。雖然學生們不打算繼續使用Babel生成器進行標準化測試,但他們很快就會知道通過使用大量華麗的辭藻、複雜的句型和一些關鍵短語,就能瞞天過海糊弄過演算法。
愚弄系統?
教育測試服務(ETS)的高階研究科學家Nitin Madnani表示,該公司只是研究了GRE自動評分專案。
Madnani說:“如果有人很聰明,研究透了自動評分系統所關注的所有細節,並在寫作時考慮到這些,那就不僅僅是愚弄了,它將成為優秀的作品。到那時,你都會忍不住給他高分。”
而目前,GRE論文仍然由人和計算機來綜合評分,純粹的“技術”不能通過真正的考驗。
但是在像猶他州這樣只有機器進行評分的地方,學生們就會和演算法鬥智鬥勇了。來自猶他州的測評官Carter說:
“學生們都是天才,他們能夠愚弄系統。”
Carter說,有一年有個學生寫了整整一頁的字母“b”,但是他的得分很高。
有些學生也已經發現,他們可以先寫一個非常好的段落,然後複製四次,就完成了一篇得分很高的五段式文章。還有一些學生髮現,在回答中長篇引用他們要分析的文字,或者摘抄題目本身,都能滿足計算機評高分的要求。
但是Carter也承認,每次都能通過優化計算機程式碼發現這些投機取巧的手段。
休斯頓大學教育學院院長兼教授Mark Shermis和自動評分專家Clear Lake說:“在這場貓和老鼠的遊戲中,供應商已經洞悉了這些策略。”
所以作為一種保障措施,所有論文不僅會有得分,還會有一個置信度:“那些投機取巧的文章將獲得‘較低置信度’的得分,並且機器會給出‘請人工核驗’的建議。”
機器評分的反對者也擔心它會改變老師的教學方式。Perelman說:“如果老師的評級是由他們的學生在‘機器評分的標準化測試’上的表現決定的,學校的評級也是由學生的考試成績決定的,那麼為了取得較好的成績,老師們就會幫助學生去作弊。”
“事實是次要的”
開頭提到的舊金山的培訓公司Stellar GRE的 Taraban說,事實上,一名優秀的作家並不一定是一個“能寫出GRE高分作文的作家”。
Taraban用模版指導學生如何寫出令計算機滿意的論文。“我訓練他們如何製作證據和虛假研究,”他說,“當然我也會告訴他們,在現實生活中不要這樣做。”
在GRE自動評分專案中為ETS工作的Madnani承認道:“是的,我們看到過很多次這種情況。即使是每篇文章都會花兩分鐘去閱讀的人工評分員,也不會花太多時間去檢查這些細節。畢竟如果評估的目的是測試你是否是一位優秀的英國作家,那麼事實就沒那麼重要了。”
但如果在測試的目的在於事實,比如看學生對歷史的掌握程度,那麼事實就很重要了。人工智慧系統可以根據資料庫檢索事實,儘管這隻適用於極少數的問題。“如果你有數以百萬計的事實,那麼任何自動化系統都無法驗證所有的這些事實,”Madnani說,“所以這就是我們讓人類參與進去的原因。”
最後,Madnani說,你把計算機程式設計成什麼樣子,它就怎麼工作:例如在評估一個學生是否知道如何用優美的語言組織一篇包含論點、論據和論證的論文時,有像“in conclusion”這樣過渡性的短語,演算法會自動給你加分;“firstly”,“secondly”和“thirdly”則表明學生正在進行一個多方面的論證。
純粹主義者可能會對那種公式化寫作嗤之以鼻,但正如開發人員所說,計算機會從老師那裡學習什麼是好的寫作,然後模仿。來自Pearson的Foltz說:“只有當教師認為‘in conclusion’在寫作中是一個很好的結構過渡詞時,學生才會因此而獲得獎勵。”
總而言之,機器評分技術可能確實“表現出很高的熟練程度”,並且“能不斷學習新技能”。
但不可否認,它仍然有很大的改進空間。