AI能寫論文了!華人本科生發明AI論文生成器
【新智元導讀】 AI寫論文達到了幾近完善的程度!倫斯勒理工學院大四學生王清昀等研究人員最新開發PaperRobot,能夠從產生點子、寫摘要、寫結論到寫“未來研究”,甚至它還能為你寫出下一篇論文的題目。
還在為寫論文想不出好點子而發愁嗎?
不用愁了!倫斯勒理工學院、史丹佛大學等的研究人員最新開發的PaperRobot,提供從 產生idea、寫摘要、寫結論到寫“未來研究”的一站式服務 !甚至它還能為你寫出下一篇論文的題目,從此 論文無憂 。
這篇題為 PaperRobot: Incremental Draft Generation of Scientific Ideas 的論文已被ACL 2019錄取,近日在推特上引起大量關注。
谷歌大腦科學家David Ha(hardmaru)評價:“ May a thousand (incremental) ideas bloom. ”
大四華人一作發明AI「論文生成」神器
論文作者來自倫斯勒理工學院、DiDi實驗室、伊利諾伊大學香檳分校、北卡羅來納大學教堂山分校和史丹佛大學。其中,第一作者 Qingyun Wang (王清昀) 是倫斯勒理工學院的大四本科生(今年8月開始講進入UIUC讀電腦科學PhD)。
這不是王清昀同學第一次研究AI寫論文,早在2017年他的“ 論文摘要生成 ”研究也曾引起熱議。王清昀同學中學在杭州第二中學就讀,從小就是“發明小達人”,取得專利的發明就有2個。
論文地址:
PaperRobot是怎樣自動寫論文的呢?簡單來說,它從以前的論文中提取背景知識圖譜,產生新的科學思想,最後寫出論文的關鍵要素。
它的工作流程包括:
(1)對目標領域的 大量人類撰寫的論文 進行深入的理解,並 構建全面的背景知識圖 (knowledge graphs, KGs);
(2)透過結合從圖注意力(graph attention)和上下文文字注意力(contextual text attention), 從背景知識庫KG中預測連結,從而產生新想法 ;
(3)基於memory-attention網路, 逐步寫出一篇新論文的一些關鍵要素 :從輸入標題和預測的相關實體,生成一篇 摘要 ;從摘要生成 結論 和未來 工作 ;最後從未來工作生成 下一篇論文的標題 。
研究者對這個AI論文生產機進行了圖靈測試:
PaperRobot生成生物醫學領域論文的摘要、結論和未來工作部分,同時展示人類寫作的同領域論文,要求一名生物醫學領域的專家進行比較。結果顯示,分別就摘要、結論和未來工作部分而言,在30%、24%和12%的情況下人類專家認為AI生成的比人類寫作的更好。
至於這批AI研究人員為什麼選擇生物醫學領域來做實驗,原因很簡單:生物醫學論文很多,非常多!他們嘗試了用自己領域(NLP)來做實驗,結果並不理想(NLP的論文語料還不夠多)。
接下來,新智元對這篇論文進行了譯介:
簡單3步,圖網路+注意力機制,AI寫論文甚至比人類好
我們的目標是打造一個論文機器人PaperRobot,來加速科學發現和生產,它的主要任務如下。
閱讀現有的論文。
論文太多了。科學家們很難跟上井噴式的論文增長速度。例如,在生物醫學領域,平均每年有超過50萬篇論文被發表,僅2016年就有超過120萬篇新論文發表,總論文數超過2600萬篇(Van Noorden, 2014)。
然而,人類的閱讀能力幾乎是不變的。2012年,美國科學家估計,他們平均每年只能閱讀264篇論文(5000篇論文中只讀1篇),這個數字與他們在2005年進行的同樣調查中報告的資料一致。
PaperRobot自動閱讀所有可用的論文,構建背景知識圖(KG),其中節點表示實體/概念,邊表示這些實體之間的關係。
在本研究中,我們採用的是大量已發表的生物醫學論文,提取實體及其關係來構建背景知識圖。我們應用了Wei等人(2013)中提出的實體和關係提取系統,提取了3類實體(疾病,化學和基因)。然後,我們進一步將所有實體連結到CTD(比較遺傳毒理學資料庫),提取出133個子型別的關係,如標記/機制、治療和提高表達。
圖3是一個示例。
圖3:生物醫學知識提取與連結預測示例(虛線表示預測的連結)
產生新的想法
科學發現可以看作是在知識圖中建立新的節點或連結(links)。
建立新節點通常意味著透過一系列真實的實驗室實驗發現新的實體(如新的蛋白質),這對PaperRobot來說可能太難了。但是,使用背景知識圖作為起點,自動地建立新的邊是更容易的。
Foster等人(2015)的研究表明,640萬篇生物醫學和化學論文中,60%以上是增量式的工作。這啟發我們透過預測背景知識圖(KGs)中的新連結來自動地增加新想法和新假設。
我們提出了一種新的實體表示方法,結合了KG結構和非結構化上下文文字來進行連結預測。
如上面的圖3所示,虛線表示了預測的連結,由於鈣和鋅在上下文文字資訊和圖結構上都相似,我們預測了鈣的兩個新鄰居:CD14分子和神經纖毛蛋白2(neuropilin 2),它們是初始背景知識圖中鋅的鄰居。
寫一篇關於新想法的新論文
最後一步是把新想法清晰地傳達給讀者,這是一件非常困難的事情;事實上,許多科學家都是糟糕的作家(Pinker, 2014)。
使用一個新穎的memory-attention網路架構,基於輸入的標題和預測的相關實體,PaperRobot自動寫出了一篇新論文的摘要,然後進一步寫出了結論部分和相關工作部分,最後,為後續論文寫了新標題。
這個流程如圖1所示。
圖1: PaperRobot論文寫作流程
我們選擇生物醫學作為我們的目標領域,因為這一領域有大量的可用論文。
圖靈測試表明,PaperRobot生成的輸出內容有時比人工編寫的內容更受歡迎;而且大多數論文摘要只需要領域專家進行少量編輯,就可以變得資訊豐富、條理清晰。
讓我們看看AI寫的摘要:
Background: Snail is a multifunctional protein that plays an important role in the pathogenesis of prostate cancer . However, it has been shown to be associated with poor prognosis. The purpose of this study was to investigate the effect of negatively on the expression of maspin in human nasopharyngeal carcinoma cell lines. Methods: Quantitative real-time PCR and western blot analysis were used to determine whether the demethylating agent was investigated by quantitative RT-PCR (qRT-PCR) and Western blotting . Results showed that the binding protein plays a significant role in the regulation of tumor growth and progression.
PaperRobot的整體框架如圖2所示。
表1顯示了從整個過程生成的示例。
表1:人類寫的論文與AI系統寫的論文的比較(粗體字表示與主題相關的實體;斜體表示人工編輯)
(關於每個步驟的演算法的詳細介紹,請閱讀原始論文。)
實驗過程及結果
資料收集
我們從PMC開放存取子集中收集了生物醫學論文。為人類書面論文引用一篇論文來構建新標題預測的ground truth,我們假設論文A的標題是從論文B的“結論和未來工作”中生成的。我們從1,687,060篇論文中構建了背景知識圖,其中包括30,483個實體和875,698個關係。表2所示為詳細資料統計。
表2 論文寫作統計結果
自動評估
以前的相關研究表明,自動評估長文字生成是一項重大挑戰。在故事生成之後,我們使用METEOR來量度文章主題與給定標題的相關性,並使用困惑度(perplexity)來進一步評估語言模型的質量。
我們的模型的困惑度評分是基於在PubMed上的論文(500,000篇題材,50,000篇摘要,50,000個結論和未來工作)中學習的語言模型評出的,這些論文在我們的實驗中沒有用於訓練或測試。結果如表3所示。我們的框架優於以前的所有方法。
表3 對診斷任務論文寫作的自動評估結果
圖靈測試
由生物醫學專家(非母語人士)和非專家(母語人士)對模型進行圖靈測試。測試中要求每個人類對系統輸出的字串和人類創作的字串,並選出質量更高的字串。
表4 對模型的圖靈測試結果(%)。百分比表示人類裁判選擇我們的模型輸出結果的頻率。如果輸出字串(如摘要)基於相同的輸入字串(如標題),輸入條件標記為“相同”,否則標記為“不同”。
可以看到,在專家的選擇中,PaperRobot生成的摘要入選率比人類撰寫的摘要入選率最多高出30%,“結論和未來工作”部分最多高24%,新標題最多高出12%。領域內專家的表現並未明顯優於非專家,因為這兩類人傾向於關注不同方面:專家側重於內容(實體,主題等),而非專家側重於語言。
人類後期編輯
為了測量PaperRobot作為寫作助手的有效性,我們在第一次迭代中隨機選擇了系統生成的50篇論文摘要,並要求領域內的專家對其進行編輯,直到專家認為編輯後摘要具有足夠的資訊性和連貫性。 然後由BLEU,ROUGE和TER透過比較人類編輯前後的摘要質量給出評分,如表5所示。專家花了大約40分鐘。完成了50篇摘要的編輯。
一些後期編輯後的示例。可以看到大多數編輯內容都是形式上的變化。
華人本科生一作,發明小達人
論文一作Qingyun Wang (王清昀)是倫斯勒理工學院的大四本科生,主修電腦科學與數學雙學位。今年8月開始他將在伊利諾伊大學厄巴納香檳分校讀博,主修電腦科學。
王清昀對自然語言處理很感興趣,專研自然語言生成、資訊提取和對話系統,本科期間已發表多篇相關論文。
令人意外的是,王清昀簡歷中還列舉了2項專利,分別是“遙控方便桌”和“家用廢油制皂裝置”,都是中學時期取得的,其中《遙控方便桌》獲得第27屆浙江省創新大賽一等獎。
中學時期的王清昀同學
看來,王同學從小就是發明達人啊。AI寫論文機不用說也是一大造福人類的好發明,期待王同學繼續改進。
參考連結:
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2645571/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 如何寫/審AI領域的論文AI
- AI 論文網站AI網站
- AI在用| 萬萬沒想到,科技論文還能這麼讀AI
- 用於撰寫研究論文的十大AI工具AI
- TopPaper:AI 初學者經典論文列表AI
- 全球AI頂會NeurlPS開始收高中生論文了AI
- 論文解讀|李國良等:Database Meets AIDatabaseAI
- 如何寫論文
- 論文寫作
- 人類模仿AI新賽道,AI:論瘋癲,你是我爹AI
- AI寒冬論作者再發文:「深」度學習對資料的理解太「淺」了AI
- 論壇預告|“智啟文創,激發無限新質生產力” ——“AI+文創”發展論壇前瞻AI
- AI 知識概論AI
- 如何寫EMBA論文
- 本週份AI論文推薦新鮮出爐!真的很skr了~AI
- 王者榮耀AI論文、位元組跳動收購AI技術研發商,遊戲+AI會誕生什麼?AI遊戲
- 【小白寫論文】技術性論文結構剖析
- 科技論文寫作和發表規則
- 報告顯示中國AI論文數全球第一AI
- NIPS 2017 騰訊AI Lab論文導讀AI
- 「預訓練」獲EMNLP最佳論文,一作為華人,哈工大劉挺教授10篇論文被接收
- AI 頂會灌水嚴重,論文疲於趕場,科學研究變味了?AI
- 大模型是否有推理能力?DeepMind數月前的論文讓AI社群吵起來了大模型AI
- 人剛畢業,顛覆整個AI界:扒一扒Sora兩帶頭人博士論文AISora
- 關於如何寫論文
- 論文寫作常用詞彙
- 學術論文寫作
- 論文撰寫心得(一)
- 微信AI 9篇論文入選ACL 2019,最佳長論文獎榜上有名AI
- 寫論文是發現的神器網站網站
- 論文神器上新,有道寫作正式支援LaTeX了!
- 現在的AI工具還能寫劇本殺了?AI
- 騰訊AI Lab多篇論文入選CVPR、ACL及ICML等頂級會議(附論文下載)AI
- 【論文】軍事理論課程論文
- 1人15篇入選?華人論文知多少?深度分析ICCV2019論文錄取背後的那些事兒!
- 霍金走了,但他的AI威脅論卻值得人類深思AI
- NIPS論文排行榜出爐,南大周志華5篇論文入選
- 從2019 AI頂會最佳論文,看深度學習的理論基礎AI深度學習