作為國內最大的自然語言處理領域的社團組織——中國中文資訊學會(CIPS)的旗艦會議,中國計算語言學大會(原名全國計算語言學學術會議)從 1991 年開始每兩年舉辦一次,從 2013 年開始每年舉辦一次。CCL 2018 由中國中文資訊學會主辦,長沙理工大學承辦,組織單位為清華大學智慧技術與系統國家重點實驗室。
本次大會由中國中文資訊學會名譽理事長、哈爾濱工業大學教授李生,清華大學教授黃昌寧,山西大學教授劉開瑛教授擔任共同主席,由中國中文資訊學會計算語言學專委會主任、清華大學教授孫茂松,哈爾濱工業大學教授劉挺,北京郵電大學教授王小捷擔任程式委員會共同主席。國際學術研討會由清華大學教授孫茂松、加拿大阿爾伯塔大學教授 Randy Goebel,美國倫斯勒理工學院教授 Heng Ji 擔任程式委員會共同主席。開幕式由會議組織委員會主席、長沙理工大學教授王進主持,長沙理工大學黨委書記付宏淵教授以及李生教授、黃昌寧教授、孫茂松教授等在開幕式上致辭。
據介紹,本次大會註冊參會人次超過 1 千人。在論文方面,本屆會議收到 277 篇投稿(中文 181 篇,英文 96 篇),錄用 102 篇論文(中文 69 篇,英文 33 篇)。總體錄用率 36.82%,中文論文錄用率 38.12%,英文論文錄用率 34.38%。
其中,北京大學、北京語言大學獲得 CCL 2018 最佳論文獎:
論文:基於神經網路的集句詩自動生成
作者:梁健楠,孫茂松,矣曉沅,楊成,陳慧敏,劉正皓
地址:http://www.cips-cl.org/static/anthology/CCL-2018/CCL-18-057.pdf
摘要:集句詩是中國古典詩歌的一種特殊體裁,是從前人的詩篇中選取已有詩句,再將其巧妙組合形成一首新詩,是一種藝術的再創造形式。集句詩的生成要求集輯而成的詩不僅合轍押韻, 而且有完整的內容、連貫的上下文和新 穎的主旨意境,對創作者的知識儲備和詩詞鑑賞能力有極高的要求。本文基於計算機的海量儲存和快速檢索能力,以及神經網路模型對文字語義較強的表示和理解能力,提出了一種新穎的集句詩自動生成模型。我們的模型以數十萬首古人詩作為基礎,利用迴圈神經網路 (RNN) 自動學習古詩句的語義表示,並設計了多種方法自動計算兩句詩句 的上下文關聯性。根據使用者輸入的首句,我們的模型能夠自動計算選取上下文語義最相關連貫的詩句進行集輯,從 而形成一首完整的集句詩。自動評測和人工評測的實驗結果都表明,我們的模型能夠生成質量較好的集句詩,遠遠 超過基線模型的效果。
論文:中文基本複合名詞短語語義關係體系及知識庫構建
作者:劉鵬遠、劉玉潔
地址:http://www.cips-cl.org/static/anthology/CCL-2018/CCL-18-049.pdf
摘要:名詞短語一直是中外語言學領域的重要研究物件,近年來在自然語言處理領域也受到了研究者的持續關注。英文方面,已建立了一定規模的名詞短語語義關係知識庫。但迄今為止,尚未建立相應或更大規模的描述名詞短語語義關係的中文資源。本文借鑑國內外諸多學者對名詞短語語義分類的研究成果,對大規模真實語料中的基本複合名詞例項進行試標註與分析,建立了中文基本複合名詞短語語義關係體系及相應句法語義知識庫,該庫能夠為中文基本複合名詞短語句法語義的研究提供基礎資料資源。目前該庫共含有 18218 條高頻基本複合名詞短語,每條短語均標註了語義關係、短語結構及是否指稱實體等資訊,每條短語包含的兩個名詞還分別標註了語義類資訊。語義類資訊基於北京大學《現代漢語語義詞典》。基於該知識庫,本文還做了基本複合名詞短語句法語義的初步統計與分析。
來自清華大學的論文《Type Hierarchy Enhanced Heterogeneous Network Embedding for Fine-Grained Entity Typing in Knowledge Bases》獲得了 NLP-NABD 最佳論文獎。
論文:Type Hierarchy Enhanced Heterogeneous Network Embedding for Fine-Grained Entity Typing in Knowledge Bases
作者:Hailong Jin、Lei Hou、Juanzi Li
地址:http://www.cips-cl.org/static/anthology/CCL-2018/CCL-18-095.pdf
摘要:型別資訊在知識庫中非常重要,但一些大型知識庫由於不夠完備而缺乏型別資訊。本文提出用定義良好的分類方法來幫助完善某些知識庫中的型別資訊。值得一提的是,我們提出了一個基於嵌入的新分層實體型別框架,該框架使用 Learning to Rank 演算法來提高 word-entity-type 網路嵌入的效能。透過這種方法,我們可以充分利用已標記和未標記的資料。在 DBpedia 的兩個真實資料庫中進行的大量實驗表明,我們提出的方法明顯優於當前最佳的四種方法,該方法在 Mi-F1 和 Ma-F1 上分別獲得了 2.8% 和 4.2% 的提升。
除了最佳論文獎項,來自東北大學自然語言處理實驗室的論文《面向神經機器翻譯的模型儲存壓縮方法分析》獲得最佳張貼報告展示獎。
來自清華大學的 THU 大計劃系統技術平臺獲得最佳系統展示獎。