國內免費漢語語料庫-NLP

luolan9611發表於2018-10-29

自轉載https://www.sohu.com/a/196504864_236505

(一)國家語委

1國家語委現代漢語語料庫http://www.cncorpus.org/

現代漢語通用平衡語料庫現在重新開放網路查詢了。重開後的線上檢索速度更快,功能更強,同時提供檢索結果下載。現代漢語語料庫線上提供免費檢索的語料約2000萬字,為分詞和詞性標註語料。

2古代漢語語料庫http://www.cncorpus.org/login.aspx

網站現在還增加了一億字的古代漢語生語料,研究古代漢語的也可以去查詢和下載。同時,還提供了分詞,詞性標註軟體,詞頻統計,字頻統計軟體,基於國家語委語料庫的字頻詞頻統計結果和釋出的詞表等,以供學習研究語言文字的老師同學使用。

(二)北京大學計算語言學研究所

1“人民日報”標註語料庫http://www.icl.pku.edu.cn/icl_res/

“人民日報”標註語料庫中一半的語料(1998年上半年)共1300萬字已經通過“人民日報”新聞資訊中心公開提供許可使用權。其中一個月的語料(1998年1月)近200萬字在網際網路上公佈,供自由下載。

(三)北京語言大學

漢語國際教育技術研發中心:HSK動態作文語料庫http://202.112.195.192:8060/hsk/login.asp

語言研究所:北京口語語料查詢系統(BJKY)http://www.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp

(四)臺灣中央研究院

中研院語料庫WWW版所有功能均開放使用,但為防主機資源耗用過劇及顧及資料傳輸之實際限制,暫以檢索結果為限制的條件:院內檢索限兩萬行資料,院外檢索限兩千行資料。

1現代漢語平衡語料庫http://www.sinica.edu.tw/SinicaCorpus/

專門針對語言分析而設計的,每個文句都依詞斷開,並標示詞類。語料的蒐集也儘量做到現代漢語分配在不同的主題和語式上,是現代漢語無窮多的語句中一個代表性的樣本。現有語料庫主要針對語言分析而設計,由中央研究院資訊所,語言所詞庫小組完成,內含有簡介,使用說明,現行的語料庫是4.0的版本。

2古漢語語料庫http://www.sinica.edu.tw/ftms-bin/ftmsw

古漢語語料庫包含以下五個語料庫:上古漢語,中古漢語(含大藏經),近代漢語,其他,出土文獻。部分資料取自史語所漢籍全文資料庫,故兩者間略有重迭。語料庫之出土文獻語料庫,全部取自史語所漢簡小組所製作的資料庫。

3近代漢語標記語料庫http://www.sinica.edu.tw/Early_Mandarin/

為應用漢語史研究需求而建構的語料庫。目前素語料庫所蒐集的語料已含蓋上古漢語(先秦至西漢),中古漢語(東漢魏晉南北朝),近代漢語(唐五代以後)大部分的重要語料,並己陸續開放使用;在標記語料庫方面,上古漢語及近代漢語都已有部分語料完成標註的工作,並視結果逐步提供上線檢索。

4樹圖資料庫http://treebank.sinica.edu.tw/

「中文句結構樹資料庫」(Sinica Treebank Version 3.0)包含了6個檔案,61,087箇中文樹圖,361,834個詞,是中央研究院詞庫小組從中央研究院平衡語料庫(Sinica Corpus)中抽取句子,經由電腦剖析成結構樹,並加以人工修正,檢驗後所得的成果。在中文句結構樹中,我們標示了中文句語意和語法的訊息。此一「中文句結構樹資料庫」目前開放網上檢索及資料移轉,以供學者專家在中文句法,語意關係研究參考之用。另有1000個句結構樹開放下載。

5中英雙語知識本體詞網http://bow.sinica.edu.tw/

結合詞網,知識本體,與領域標記的詞彙知識庫。

6搜文解字http://words.sinica.edu.tw/

包含「搜詞尋字」、「文學之美」、「遊戲解惑」、「古文字的世界」四個單元,可由部件、部首、字、音、詞互查,並可查詢在四書、老、莊、唐詩中的出處,及直接連結到出處,閱讀原文。

7文國尋寶記http://www.sinica.edu.tw/wen/

在搜文解字的基礎之上,以華語文學習者為物件,進一步將字、詞、音的檢索功能與國編、華康、南一等三種版本的國小國語課本結合,與唐詩三百首、宋詞三百首、紅樓夢、水滸傳等文學典籍結合,提供網路上國語文學習的素材。

8唐詩三百首http://cls.admin.yzu.edu.tw/300/

以 國中、小學學生為主要使用物件,提供吟唱、繪畫、書法等多媒體資料,文字資料包含作者生平、讀音標註、翻譯、批註、評註、典故出處等資料;檢索點包含作 者、詩題、詩句、綜合資料、體裁分類等;檢索結果可以列出全文,並選擇標示相關之文字及多媒體資料。並提供了一套可以自動檢查格律、韻腳、批改的「依韻入 詩格律自動檢測索引教學系統」,協助孩子們依韻作詩,協助教師批改習作。

9漢籍電子文獻http://www.sinica.edu.tw/~tdbproj/handy1/

包含整部25史 整部阮刻13經、超過2000萬字的臺灣史料、1000萬字的大正藏以及其他典籍。

10紅樓夢網路教學研究資料中心http://cls.hs.yzu.edu.tw/HLM/home.htm

元智大學中國文學網路系統研究室所開發的「網路展書讀—中國文學網路系統」,為研究中心負責人羅鳳珠老師主持,紅樓夢是其中一個子系統,其他還包括善本書、詩經、唐宋詩詞、作詩填詞等子系統。此網站為國內Internet最大中國文學研究資料庫,提供使用者最完整的中國文學研究資料。

(五)中國傳媒大學

1中國傳媒大學文字語料庫檢索系統

http://ling.cuc.edu.cn/RawPub/

2線上分詞標註系統

http://ling.cuc.edu.cn/cucseg/

3新詞語研究資源庫

http://ling.cuc.edu.cn/newword/web/index.asp

4音視訊語料檢索系統

http://ling.cuc.edu.cn/mmcpub(目前系統正在升級改造中)

(六)哈爾濱工業大學

1哈工大資訊檢索研究室對外共享語料庫資源http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm

該語料庫為漢英雙語語料庫,10萬對齊雙語句對,文字檔案格式,同義詞詞林擴充套件版,77,343條詞語,秉承《同義詞詞林》的編撰風格,同時採用五級編碼體系,多文件自動文摘語料庫,40個主題,文字檔案格式,同一主題下是同一事件的不同報導,漢語依存樹庫,不帶關係5萬句,帶關係1萬句,LTML化,分詞、詞性、句法部分人工標註,可以圖形化檢視,問答系統問題集,6264句,已標註問題型別,LTML化,分詞、詞性、句法、詞義、淺層語義等程式處理得到,單文件自動文摘語料庫,211篇,分不同體裁,LTML化,文摘句標註,分詞、詞性、句法、詞義、淺層語義、文字分類、指代消解等程式處理得到。

(七)清華大學

漢語均衡語料庫TH-ACorpus:http://www.lits.tsinghua.edu.cn/ainlp/source.htm(似乎在改版,一直上不去)

(八)香港教育學院

語言資訊科學中心及其語料庫實驗室http://www.livac.org/index.php?lang=sc

自1995年開始,以「共時」方式處理了超常的大量漢語語料,通過精密的技術,累積眾多精確的統計資料,建立了LIVAC (Linguistic Variation in Chinese Speech Communities)共時語料庫。 本語料庫最大特點是採用「共時性」視窗模式,嚴謹地定時分別收集來自多地的定量同類語料,可供各種客觀的比較研究,方便有關的資訊科技發展與應用。此外,語料庫又兼顧了「歷時性」,方便各方人士客觀地觀察與研究視窗內的有代表性的語言發展全面動態。

(九)中國科學院計算技術研究所

跨語言語料庫http://mtgroup.ict.ac.cn/new/resource/index.php(目前不可用,不知道是否在升級)

目前的雙語句對資料庫中有約180,000對已對齊的中英文句子。 本資料庫支援簡單的中英文查詢服務。 查詢結果包括句對編號、中文句子、英文句子、句對來源。

(十)中文語言資源聯盟

中文語言資源聯盟http://www.chineseldc.org/

(Chinese Linguistic Data Consortium,簡稱ChineseLDC)的建立。ChineseLDC是吸收國內高等院校,科研機構和公司參加的開放式語言資源聯盟。其目的是建成能代表當今中文資訊處理水平的,通用的中文語言資訊知識庫。ChineseLDC 將建設和收集中文資訊處理所需要的各種語言資源,包括詞典,語料庫,資料,工具等。在建立和收集語言資源的基礎上,分發資源,促成統一的標準和規範,推薦給使用者,並且針對中文資訊處理領域的關鍵技術建立評測機制,為中文資訊處理的基礎研究和應用開發提供支援。(之所以排名這麼後,是因為是國家出錢的專案,卻沒有什麼免費資源)

 

【網站】

語料庫線上 http://www.cncorpus.org/

現代漢語語料庫 http://ccl.pku.edu.cn/corpus.asp?item=1

古代漢語語料庫 http://ccl.pku.edu.cn/corpus.asp?item=2

漢英雙語語料庫 http://ccl.pku.edu.cn/corpus.asp?item=3

HSK動態作文語料庫 http://202.112.195.192:8060/hsk/login.asp

北京口語語料查詢系統 http://www.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp

現代漢語平衡語料庫 http://rocling.iis.sinica.edu.tw/new/20corpus.htm

LIVAC共時語料庫 http://www.livac.org/index.php

蘭開斯特漢語語料庫 http://ling.cass.cn/dangdai/LCMC/LCMC.htm

洛杉磯加州大學漢語語料庫 http://www.lancs.ac.uk/fass/projects/corpus/UCLA/

中文新聞分類語料庫 http://www.nlpir.org/?action-viewnews-itemid-145

NLPIR 500萬條twitter內容語料庫 http://www.nlpir.org/?action-viewnews-itemid-263

NLPIR微博博主語料庫100萬條 http://www.nlpir.org/?action-viewnews-itemid-232

現代漢語語料庫詞頻統計 http://elearning.ling.sinica.edu.tw/CWordfreq.html

歡迎關注新浪微博【對外漢語北京】

中文句結構樹資料庫 http://turing.iis.sinica.edu.tw/treesearch/

搜狗文字分類語料庫 http://www.sogou.com/labs/dl/c.html

哈工大資訊檢索研究室對外共享語料庫 http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm

傳媒大學文字語料庫 http://ling.cuc.edu.cn/RawPub/

詞語研究資源庫 對外漢語北京 http://ling.cuc.edu.cn/newword/web/index.asp

BFSU CQPweb多語言線上語料庫檢索平臺 http://www.iresearch.ac.cn/paper/detail.php?ItemID=6358

英漢雙語平行語料庫 http://www.luweixmu.com/ec-corpus/

babel漢英平行語料庫http://icl.pku.edu.cn/icl_groups/parallel/default.htm

中國法律法規漢英平行語料庫(大陸)http://corpus.zscas.edu.cn/lawcorpus1/index.asp

國家語言資源監測與研究中心http://www.clr.org.cn/

英國國家語料庫http://www.natcorp.ox.ac.uk/

以下資源來自中國自然語言開源組織:http://www.nlpcn.org/ Google“紐約時報”標註資料集

Google公佈了一個“紐約時報”標註資料集:http://t.cn/RPsjAyl訓練集包括100,834檔案,19,261,118標註實體。測試集合包括9,706檔案,187,080標註實體.Google Code專案連結:http:// t.cn/RPsjAyl

360萬中文詞庫包含,詞性,詞頻

來源:網際網路。共有詞條3669276個。統計了每個詞條的詞頻以及詞性資訊。盡請下來..下載地址:http://pan.baidu.com/s/1gdBtsTP提取碼:7s4j

10億字語言建模基準1.67G

10億字 - 語言 - 建模 - 基準 - r13output.tar語言模型詞語搭配語料連結:http://pan.baidu.com/s/1o6jZOtc密碼:x4sb

某購物網站6瓦特多的商品資料

某購物網站6w多的商品資料。連結:http://pan.baidu.com/s/1o6DgcNS密碼:vi4l包括商品名稱價錢。以及圖片連結地址分類ID

來源:HTTP://www.cnblogs.com/mo-wang/p/4444858.html

相關文章