ChineseGLUE 的成員包括全國各地關注 NLP 的熱心專業人士,包括清華、北大、浙大等知名高校的畢業生。團隊的願景是通過完善中文語言理解基礎設施,促進中文語言模型的發展,能夠作為通用語言模型測評的補充,以更好地服務中文語言理解、任務和產業界。
專案地址:https://github.com/chineseGLUE/chineseGLUE
GLUE 是什麼?有什麼用?
為了使自然語言理解技術(NLU)發揮最大作用,NLU 模型必須能夠處理多種任務或資料集。為此,來自紐約大學、華盛頓大學、DeepMind 等機構的研究者建立了一個多工自然語言理解基準和分析平臺——GLUE(General Language Understanding Evaluation),用於評估 NLP 模型在現有的多個自然語言理解任務中的效能。
GLUE 是九種(英語)語言理解任務的集合,包括文字蘊涵、情感分析和語法判斷等。其設計目的是覆蓋足夠大的 NLP 領域。只有開發出足夠通用的工具,才能在這一基準上表現良好。GLUE 的最終目標是推動通用的、魯棒的自然語言理解系統的研究。
今年 4 月份,由於 BERT 等模型的出現,GLUE 基準在新模型的評估方面日漸乏力,研究者決定將其升級為 SuperGLUE。SuperGLUE 保留了兩項 GLUE 任務,另外又加入了其它五項新任務,提高了這一測試基準的難度。
雖然這一基準測試已經升級,但不變的一點是,它只支援英文任務。因此,我們亟需一箇中文版的 GLUE 基準。
為什麼需要 ChineseGLUE?
對於 ChineseGLUE 的建立初衷,專案作者給出了三點理由:
中文是一個大語種,有其自身特定及大量的應用。產業界的 NLP 模型需要解決大量中文任務,而中文是象形文字,有文字圖形;字與字之間沒有分隔符,不同的分詞 (分字或詞) 會影響下游任務。
相對於英文資料集來說,中文資料集大多是非公開或者缺失基準測評的,大多數論文所描述的模型都是在英文資料集上做的測試和評估,在中文領域的效果卻不得而知。
預訓練模型的相繼產生極大地促進了對自然語言的理解,但不少最先進的模型卻沒有中文版本,導致技術應用上的滯後。
所以,如果有一箇中文任務的基準測試,包含一批大眾能廣泛使用和測評的資料集、適用中文任務的特點、能緊跟當前世界技術的發展,就能夠更好地緩解當前中文任務的一些問題,並促進相關應用的發展。
ChineseGLUE 都有什麼?
ChineseGLUE 是一箇中文語言理解測評基準,思路源於 GLUE,包括:
1)中文任務的基準測試,覆蓋多個不同程度的語言任務
一個包含若干句子或句子對語言理解任務的基準。當前,這些任務中使用的資料集是公開的,2019 年底前將收錄具備私有測試集的資料集。
2)公開的排行榜
一個用於效能跟蹤的公開排行榜。你可以提交跟這些任務相關的預測檔案,每個任務都會被評估打分,最後會有一個總分。
排行榜會定期更新,並迅速擴大可公開使用和測評的資料集數量(cmrc2018 僅開發集結果)
TNEWS:文字分類;LCQMC:語義相似度;XNLI:自然語言推理;INEWS:情感分析;DRCD & CMRC2018:閱讀理解;cmrc2018 僅開發集結果。
3)基線模型,包含開始的程式碼、預訓練模型
ChineseGLUE 任務的基線。基線應該是在 TensorFlow,PyTorch,Keras 和 PaddlePaddle 中可使用的。
4)語料庫,用於語言建模、預訓練或生成型任務
用於預訓練或語言建模研究的巨型原始語料庫,大約 10G(2019 年)。
2020 年上半年,至少具備 30G 的原始語料庫;到 2020 年底將包含充足的原始語料庫(例如 100G),它足夠大,以至於你不再需要那種用於通用語言建模的原始語料庫。
你可以將其用於常規用途或特定領域,甚至用於文字生成。當用於特定領域時,你可以選擇自己感興趣的語料庫。
資料集
ChineseGLUE 的目標是包含 8 個覆蓋不同任務的有代表性的資料集,包括:
1. LCQMC 口語化描述的語義相似度任務
輸入是兩個句子,輸出是 0 或 1。其中 0 代表語義不相似,1 代表語義相似。
資料量:訓練集 (238,766),驗證集 (8,802),測試集 (12,500)
例子:
1. 聊天室都有哪些好的 [分隔符] 聊天室哪個好 [分隔符] 1
2. 飛行員沒錢買房怎麼辦?[分隔符] 父母沒錢買房子 [分隔符] 0
2. XNLI 語言推斷任務
跨語言理解的資料集,給定一個前提和假設,判斷這個假設與前提是否具有蘊涵、對立、中性關係。
資料量:訓練集 (392,703),驗證集 (?),測試集 (?)
例子:
1. 從 概念 上 看 , 奶油 收入 有 兩 個 基本 方面 產品 和 地理 .[分隔符] 產品 和 地理 是 什麼 使 奶油 抹 霜 工作 . [分隔符] neutral
2. 我們 的 一個 號碼 會 非常 詳細 地 執行 你 的 指示 [分隔符] 我 團隊 的 一個 成員 將 非常 精確 地 執行 你 的 命令 [分隔符] entailment
原始的 XNLI 覆蓋 15 種語言(含低資源語言)。我們選取其中的中文,並將做格式轉換,使得非常容易進入訓練和測試階段。
3.TNEWS 今日頭條中文新聞(短文字)分類
資料量:訓練集 (266,000),驗證集 (57,000),測試集 (57,000)
例子:
6552431613437805063_!_102_!_news_entertainment_!_謝娜為李浩菲澄清網路謠言,之後她的兩個行為給自己加分_!_佟麗婭, 網路謠言, 快樂大本營, 李浩菲, 謝娜, 觀眾們
每行為一條資料,以_!_分割的個欄位,從前往後分別是 新聞 ID,分類 code,分類名稱,新聞字串(僅含標題),新聞關鍵詞
4.INEWS 網際網路情感分析任務
資料量:訓練集 (5,356),驗證集 (1,000),測試集 (1,000)
例子:
1_!_00005a3efe934a19adc0b69b05faeae7_!_九江辦好人民滿意教育_!_近 3 年來,九江市緊緊圍繞「人本教育、公平教育、優質教育、幸福教育」的目標,努力辦好人民滿意教育,促進了義務教育均衡發展,農村貧困地區辦學條件改善。目前,該市特色教育學校有 70 所 ......
每行為一條資料,以_!_分割的個欄位,從前往後分別是情感類別,資料 id,新聞標題,新聞內容
5.DRCD 繁體閱讀理解任務
臺達閱讀理解資料集 Delta Reading Comprehension Dataset (DRCD)屬於通用領域繁體中文機器閱讀理解資料集,本資料集期望成為適用於遷移學習之標準中文閱讀理解資料集。
資料量:訓練集 (8,016 個段落,26,936 個問題),驗證集 (1,000 個段落,3,524 個問題),測試集 (1,000 個段落,3,493 個問題)
例子:
{ "version": "1.3", "data": [ { "title": "基督新教", "id": "2128", "paragraphs": [ { "context": "基督新教與天主教均繼承普世教會歷史上許多傳統教義,如三位一體、聖經作為上帝的啟示、原罪、認罪、最後審判等等,但有別於天主教和東正教,新教在行政上沒有單一組織架構或領導,而且在教義上強調因信稱義、信徒皆祭司,以聖經作為最高權威,亦因此否定以教宗為首的聖統制、拒絕天主教教條中關於聖傳與聖經具同等地位的教導。新教各宗派間教義不盡相同,但一致認同五個唯獨:唯獨恩典:人的靈魂得拯救唯獨是神的恩典,是上帝送給人的禮物。唯獨信心:人唯獨藉信心接受神的赦罪、拯救。唯獨基督:作為人類的代罪羔羊,耶穌基督是人與上帝之間唯一的調解者。唯獨聖經:唯有聖經是信仰的終極權威。唯獨上帝的榮耀:唯獨上帝配得讚美、榮耀", "id": "2128-2", "qas": [ { "id": "2128-2-1", "question": "新教在教義上強調信徒皆祭司以及什麼樣的理念?", "answers": [ { "id": "1", "text": "因信稱義", "answer_start": 92 } ] }, { "id": "2128-2-2", "question": "哪本經典為新教的最高權威?", "answers": [ { "id": "1", "text": "聖經", "answer_start": 105 } ] } ] } ] } ] }
資料格式和 squad 相同,如果使用簡體中文模型進行評測的時候可以將其繁轉簡 (本專案已提供)
6.CMRC2018 簡體中文閱讀理解任務
https://hfl-rc.github.io/cmrc2018/
資料量:訓練集 (短文數 2,403,問題數 10,142),試驗集 (短文數 256,問題數 1,002),開發集 (短文數 848,問題數 3,219)
例子:
{
"version": "1.0",
"data": [
{
"title": "傻錢策略",
"context_id": "TRIAL_0",
"context_text": "工商協進會報告,12 月消費者信心上升到 78.1,明顯高於 11 月的 72。另據《華爾街日報》報導,2013 年是 1995 年以來美國股市表現最好的一年。這一年裡,投資美國股市的明智做法是追著「傻錢」跑。所謂的「傻錢」策略,其實就是買入並持有美國股票這樣的普通組合。這個策略要比對衝基金和其它專業投資者使用的更為複雜的投資方法效果好得多。",
"qas":[
{
"query_id": "TRIAL_0_QUERY_0",
"query_text": "什麼是傻錢策略?",
"answers": [
"所謂的「傻錢」策略,其實就是買入並持有美國股票這樣的普通組合",
"其實就是買入並持有美國股票這樣的普通組合",
"買入並持有美國股票這樣的普通組合"
]
},
{
"query_id": "TRIAL_0_QUERY_1",
"query_text": "12 月的消費者信心指數是多少?",
"answers": [
"78.1",
"78.1",
"78.1"
]
},
{
"query_id": "TRIAL_0_QUERY_2",
"query_text": "消費者信心指數由什麼機構釋出?",
"answers": [
"工商協進會",
"工商協進會",
"工商協進會"
]
}
]
}
]
}
資料格式和 squad 相同
7. CCKS2018 Task3 智慧客服問句匹配
該資料集是自動問答系統語料,共有 100,000 對句子對,並標註了句子對相似度值,取值為 0 或 1(0 表示不相似,1 表示相似),並按 70:20:10 比例分割成訓練集、開發集和測試集。資料中存在錯別字、語法不規範等問題,但更加貼近工業場景。
資料量:訓練集 (70,000),驗證集 (20,000),測試集 (10,000)
例子:
1. 我存錢還不扣的 [分隔符] 借了每天都要還利息嗎 [分隔符] 0
2. 為什麼我的還沒有額度 [分隔符] 為啥沒有額度!![分隔符] 1
8. MSRANER 命名實體識別
該資料集共有 5 萬多條中文命名實體識別標註資料(包括人名、地名、組織名),分別用 nr、ns、nt 表示,其他實體用 o 表示。
資料量:訓練集(46,364),測試集(4,365)
例子:
1.據說/o 應/o 老友/o 之/o 邀/o ,/o 梁實秋/nr 還/o 坐/o 著/o 滑竿/o 來/o 此/o 品/o 過/o 玉峰/ns 茶/o 。/o
2.他/o 每年/o 還/o 為/o 河北農業大學/nt 扶助/o 多/o 名/o 貧困/o 學生/o 。/o
9. 還在新增中
讀者如果有定義良好的資料集,可以和建立團隊聯絡。
資料集下載地址:https://storage.googleapis.com/chineseglue/chineseGLUEdatasets.v0.0.1.zip
或使用命令:
wget https://storage.googleapis.com/chineseglue/chineseGLUEdatasets.v0.0.1.zip
排行榜及各任務對比
TNEWS 短文字分類:
XNLI 自然語言推理:
LCQMC 口語化描述的語義相似度匹配:
INEWS 網際網路情感分析:
DRCD 繁體閱讀理解:
CMRC2018 閱讀理解 (暫時只有開發集結果):
CCKS2018 Task3 智慧客服問句匹配:
基線模型程式碼
1、資料集整體下載,解壓到 glue 資料夾裡
cd glue
wget
https://storage.googleapis.com/chineseglue/chineseGLUEdatasets.v0.0.1.zip
lcqmc 資料集,請從以下連結申請或搜尋網路 :http://icrc.hitsz.edu.cn/info/1037/1146.htm
2、訓練模型
a. 將預訓練模型下載解壓到對應的模型中 prev_trained_model 資料夾裡。以 bert 和 albert 為例子:
``` a1. albert ```
```https://github.com/brightmart/albert_zh ```
```a1. bert ```
```https://github.com/google-research/bert ```
b. 修改 run_classifier.sh 指定模型路徑
c. 執行各個模型資料夾下的 run_classifier.sh 即可
sh run_classifier.sh
3、詳見:基準模型-模型訓練
https://github.com/chineseGLUE/chineseGLUE/tree/master/baselines
語料庫:語言建模、預訓練或生成型任務
可用於語言建模、預訓練或生成型任務等,資料量超過 10G,主要部分來自於 nlp_chinese_corpus 專案。
當前語料庫按照【預訓練格式】處理,內含有多個資料夾;每個資料夾有許多不超過 4M 大小的小檔案,檔案格式符合預訓練格式:每句話一行,文件間空行隔開。
包含如下子語料庫(總共 14G 語料):
新聞語料: 8G 語料,分成兩個上下兩部分,總共有 2000 個小檔案。
社群互動語料:3G 語料,包含 3G 文字,總共有 900 多個小檔案。
維基百科:1.1G 左右文字,包含 300 左右小檔案。
評論資料:2.3G 左右文字,含有 811 個小檔案,合併 ChineseNLPCorpus 的多個評論資料,清洗、格式轉換、拆分成小檔案。
可以通過上面這兩個專案,清洗資料並做格式轉換獲得語料;也可以通過郵件申請獲得單個專案的語料。