【彙總】語料庫資源

CopperDong發表於2017-11-08

感謝豆友prayever分享:Tmxmall是公開的專業平行雙語語料庫平臺,可以查詢和下載雙語語料庫。www.tmxmall.com

國內可用免費語料庫(凡沒有標註不可用的連結均可用)(一) 國家語委1.國家語委現代漢語語料庫http://www.cncorpus.org/現代漢語通用平衡語料庫現在重新開放網路查詢了。重開後的線上檢索速度更快,功能更強,同時提供檢索結果下載。現代漢語語料庫線上提供免費檢索的語料約2000萬字,為分詞和詞性標註語料。2.古代漢語語料庫http://www.cncorpus.org/login.aspx網站現在還增加了一億字的古代漢語生語料,研究古代漢語的也可以去查詢和下載。同時,還提供了分詞、詞性標註軟體、詞頻統計、字頻統計軟體,基於國家語委語料庫的字頻詞頻統計結果和釋出的詞表等,以供學習研究語言文字的老師同學使用。 (二) 北京大學計算語言學研究所《人民日報》標註語料庫http://www.icl.pku.edu.cn/icl_res/《人民日報》標註語料庫中一半的語料(1998年上半年)共1300萬字已經通過《人民日報》新聞資訊中心公開提供許可使用權。其中一個月的語料(1998年1月)近200萬字在網際網路上公佈,供自由下載。 (三) 北京語言大學漢語國際教育技術研發中心:HSK動態作文語料庫http://202.112.195.192:8060/hsk/login.asp語言研究所:北京口語語料查詢系統(B J K Y)http://www.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp (四)臺灣中央研究院中研院語料庫WWW版所有功能均開放使用,但為防主機資源耗用過劇及顧及資料傳輸之實際限制,暫以檢索結果為限制的條件:院內檢索限兩萬行資料,院外檢索限兩千行資料。1.現代漢語平衡語料庫http://www.sinica.edu.tw/SinicaCorpus/專門針對語言分析而設計的,每個文句都依詞斷開,並標示詞類。語料的蒐集也儘量做到現代漢語分配在不同的主題和語式上,是現代漢語無窮多的語句中一個代表性的樣本。現有語料庫主要針對語言分析而設計,由中央研究院資訊所、語言所詞庫小組完成,內含有簡介、使用說明,現行的語料庫是4.0的版本。2.古漢語語料庫http://www.sinica.edu.tw/ftms-bin/ftmsw 古漢語語料庫包含以下五個語料庫: 上古漢語、中古漢語(含大藏經)、近代漢語、其他、出土文獻。部分資料取自史語所漢籍全文資料庫,故兩者間略有重迭。此語料庫之出土文獻語料庫,全部取自史語所漢簡小組所製作的資料庫。3.近代漢語標記語料庫http://www.sinica.edu.tw/Early_Mandarin/為應漢語史研究需求而建構的語料庫。目前素語料庫所蒐集的語料已含蓋上古漢語(先秦至西漢)、中古漢語(東漢魏晉南北朝)、近代漢語(唐五代以後)大部分的重要語料,並己陸續開放使用;在標記語料庫方面,上古漢語及近代漢語都已有部分語料完成標註的工作,並視結果逐步提供上線檢索。4.樹圖資料庫http://treebank.sinica.edu.tw/「中文句結構樹資料庫」(Sinica Treebank Version 3.0) 包含了6個檔案,61,087個中文樹圖,361,834個詞,是中央研究院詞庫小組從中央研究院平衡語料庫 (Sinica Corpus) 中抽取句子,經由電腦剖析成結構樹,並加以人工修正、檢驗後所得的成果。在中文句結構樹中,我們標示了中文句語意和語法的訊息。此一「中文句結構樹資料庫」目前開放網上檢索及資料移轉,以供學者專家在中文句法、語意關係研究參考之用。另有1000個句結構樹開放下載。5.中英雙語知識本體詞網http://bow.sinica.edu.tw/結合詞網,知識本體,與領域標記的詞彙知識庫。6.搜文解字http://words.sinica.edu.tw/包含「搜詞尋字」、「文學之美」、「遊戲解惑」、「古文字的世界」四個單元,可由部件、部首、字、音、詞互查,並可查詢在四書、老、莊、唐詩中的出處,及直接連結到出處,閱讀原文。7.文國尋寶記http://www.sinica.edu.tw/wen/在搜文解字的基礎之上,以華語文學習者為物件,進一步將字、詞、音的檢索功能與國編、華康、南一等三種版本的國小國語課本結合,與唐詩三百首、宋詞三百首、紅樓夢、水滸傳等文學典籍結合,提供網路上國語文學習的素材。8.唐詩三百首http://cls.admin.yzu.edu.tw/300/以國中、小學學生為主要使用物件,提供吟唱、繪畫、書法等多媒體資料,文字資料包含作者生平、讀音標註、翻譯、批註、評註、典故出處等資料;檢索點包含作者、詩題、詩句、綜合資料、體裁分類等;檢索結果可以列出全文,並選擇標示相關之文字及多媒體資料。並提供了一套可以自動檢查格律、韻腳、批改的「依韻入詩格律自動檢測索引教學系統」,協助孩子們依韻作詩,協助教師批改習作。9.漢籍電子文獻http://www.sinica.edu.tw/~tdbproj/handy1/包含整部25史 整部阮刻13經、超過2000萬字的臺灣史料、1000萬字的大正藏以及其他典籍。10.紅樓夢網路教學研究資料中心http://cls.hs.yzu.edu.tw/HLM/home.htm元智大學中國文學網路系統研究室所開發的「網路展書讀—中國文學網路系統」,為研究中心負責人羅鳳珠老師主持,紅樓夢是其中一個子系統,其他還包括善本書、詩經、唐宋詩詞、作詩填詞等子系統。此網站為國內Internet最大中國文學研究資料庫,提供使用者最完整的中國文學研究資料。 (五)中國傳媒大學1.中國傳媒大學文字語料庫檢索系統http://ling.cuc.edu.cn/RawPub/2.線上分詞標註系統http://ling.cuc.edu.cn/cucseg/3.新詞語研究資源庫http://ling.cuc.edu.cn/newword/web/index.asp4.音視訊語料檢索系統http://ling.cuc.edu.cn/mmcpub(目前系統正在升級改造中) (六)哈爾濱工業大學哈工大資訊檢索研究室對外共享語料庫資源http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm該語料庫為漢英雙語語料庫,10萬對齊雙語句對,文字檔案格式,同義詞詞林擴充套件版,77,343條詞語,秉承《同義詞詞林》的編撰風格,同時採用五級編碼體系,多文件自動文摘語料庫,40個主題,文字檔案格式,同一主題下是同一事件的不同報導,漢語依存樹庫,不帶關係5萬句,帶關係1萬句,LTML化,分詞、詞性、句法部分人工標註,可以圖形化檢視,問答系統問題集,6264句,已標註問題型別,LTML化,分詞、詞性、句法、詞義、淺層語義等程式處理得到,單文件自動文摘語料庫,211篇,分不同體裁,LTML化,文摘句標註,分詞、詞性、句法、詞義、淺層語義、文字分類、指代消解等程式處理得到。 (七)清華大學漢語均衡語料庫TH-ACorpus:http://www.lits.tsinghua.edu.cn/ainlp/source.htm(似乎在改版,一直上不去) (八)香港教育學院語言資訊科學中心及其語料庫實驗室http://www.livac.org/index.php?lang=sc自1995年開始,以「共時」方式處理了超常的大量漢語語料,通過精密的技術,累積眾多精確的統計資料,建立了LIVAC (Linguistic Variation in Chinese Speech Communities)共時語料庫。本語料庫最大特點是採用「共時性」視窗模式,嚴謹地定時分別收集來自多地的定量同類語料,可供各種客觀的比較研究,方便有關的資訊科技發展與應用。此外,語料庫又兼顧了「歷時性」,方便各方人士客觀地觀察與研究視窗內的有代表性的語言發展全面動態。 (九)中國科學院計算技術研究所跨語言語料庫http://mtgroup.ict.ac.cn/new/resource/index.php(目前不可用,不知道是否在升級)目前的雙語句對資料庫中有約180,000對已對齊的中英文句子。 本資料庫支援簡單的中英文查詢服務。 查詢結果包括句對編號、中文句子、英文句子、句對來源。 (十)中文語言資源聯盟中文語言資源聯盟http://www.chineseldc.org/(Chinese Linguistic Data Consortium,簡稱ChineseLDC)的建立。ChineseLDC是吸收國內高等院校,科研機構和公司參加的開放式語言資源聯盟。其目的是建成能代表當今中文資訊處理水平的,通用的中文語言資訊知識庫。ChineseLDC 將建設和收集中文資訊處理所需要的各種語言資源,包括詞典,語料庫,資料,工具等。在建立和收集語言資源的基礎上,分發資源,促成統一的標準和規範,推薦給使用者,並且針對中文資訊處理領域的關鍵技術建立評測機制,為中文資訊處理的基礎研究和應用開發提供支援。(之所以排名這麼後,是因為是國家出錢的專案,卻沒有什麼免費資源。)國外語料庫資源(連結皆可用,內有語料庫簡介,會持續更新,最新更新日期11-05-10)1. 楊百翰大學 楊百翰大學語料庫http://view.byu.edu/楊百翰大學的Mark Davies教授開發的語料庫統一檢索平臺,整合了美國當代英語語料庫、美國曆史英語語料庫、美國時代雜誌語料庫、BNC、西班牙語料庫、葡萄牙語料庫等6個語料庫的資源。該網站每月有60,000人的使用量,也許是目前最廣泛使用的網路語料庫。 2. 聯合國官方資料庫聯合國檔案資料庫(提供80萬份六種語言平行文件)http://documents.un.org/simple.asp本檔案系統包括了1993年以來聯合國印發的所有正式檔案。不過,聯合國的早期檔案也逐日新增到本系統。本檔案系統也提供從1946年以來聯合國大會、安全理事會、經濟及社會理事會和託管理事會通過的所有決議。本系統不提供新聞稿、聯合國出版物、聯合國條約彙編或新聞部印發的新聞材料。由日本捐贈的3萬多份數字化檔案已被增添進正式檔案系統。 3. 蘭開斯特大學蘭開斯特漢語語料庫 (LCMC) http://ota.oucs.ox.ac.uk/scripts/download.php?otaid=2474應學術界對免費對公眾開放的平衡的現代漢語語料庫的需求的情況下籌建的。 LCMC 語料庫是由蘭開斯特大學語言學系承擔的並得到英國經社研究委員會資助(專案代號:RES-000-220135)的研究專案。 LCMC語料庫是與 Freiburg-LOB Corpus of British English (即FLOB)平行對應的漢語語料庫,它有助於我們從事漢語的單語和英漢雙語的對比研究。通過該網址可以免費索取LCMC預料用於研究之用。http://ota.oucs.ox.ac.uk/scripts/download.php?otaid=2474 4. 語言開放典藏社群(OLAC)OLAC(Open Language Archives Community)http://search.language-archives.org/index.html語言開放典藏社群是由個人或組織所組成的國際性合作協會。許多種類的協會需要語言資源,如:語言學家、工程師、教師、演說家,也有許多機構提供片段性的架構,如:檔案管理器、軟體開發者和出版者。理論上,使用者希望透過單一介面便可以取得任何需要的資源,其中資源種類涵蓋:①資料(Data):任何描述語言的相關資訊;②工具(Tool):有助於創造、瀏覽、查詢或使用語言資料的計算器資源;③建議(Advice):譬如,告知使用者什麼資源具有高可靠度?在此情境中哪一種工具適合採用?當新的資料衍生出時該如何創造?但實際上,卻有著語言資源散佈在不同的網站、使用者無法得到想要的資源、語言資源在不同網站擁有不同名字(Name)造成召回率(recallrate)低,在其他領域有相同意義,造成正確率低(precision rate)、許多語言資源並非以文字為基礎、不確定是否有建議適當軟體,以及所提出的建議是否中肯…等問題。OLAC由此誕生。藉由下列步驟進行創造世界性語言資源的虛擬圖書館:針對語言資源數字典藏發展一致性的實踐指引;發展網路上具有互操作性且提供存取相關語言資源的儲存器(Repositories)和服務中心。簡介可以參看http://140.109.18.114/blog/?p=1049 5. SKETCHENGINE多語言語料庫www.sketchengine.co.uk每個郵箱可以註冊一次,免費期是一個月,免費期過了就再註冊一個郵箱,再註冊一次。其中漢語語料庫是沒有加工的生語料庫,使用價值不大。關鍵是其中的英語語料庫實際上是原來要付費才能使用的BNC,可以好好利用。 6. COCA———美國當代英語語料庫(Corpus of Contemporary A2merican English)http://www.americancorpus.org/由美國B righam Young University的M ark Davies教授開發的高達3.6億詞彙的美國最新當代英語語料庫,是當今世界上最大的英語平衡語料庫。與其它語料庫不同的是它是免費線上供大家使用,給全世界英語學習者帶來了福音,是不可多得的一個英語學習寶庫,也是觀察美國英語使用和變化的一個絕佳視窗。 (以上來自:http://blog.sina.com.cn/gjxyxkgy)國內外語料庫建設一覽北京大學語言資訊工程系捷譯雙語語料庫Web對齊工具(自動+手動)開放註冊訪問地址在 http://aligner.pkucat.com文件:http://aligner.pkucat.net/doc/html/如果有需要者可以給 yjs@pkucat.com 老師寫信申請,說明身份和理由即可。http://bbs.pkucat.com/modcp.php?action=moderate&amp;op=members已證實可用的英漢平行語料庫(部分)--TEC http://www.umist.ac.uk/ctis/research/research-overview.htm翻譯語料庫方面則以英國曼徹斯特大學科技學院(UMIST) 翻譯研究中心1995年建立的世界上第一個翻譯語料庫( Translational EnglishCorpus , TEC) 最為著名。該語料庫主要收集從各國語言翻譯成英語的文字,目前已有上千萬詞的語料(目標是5 千萬詞) ,分小說(約佔80 %) 傳記、報紙和期刊4 個子庫。它並不要求必須雙語對齊。該庫不僅對語料進行了附碼標註,還帶有許多超語言資訊的標註,如對譯者情況(包括譯者姓名、性別、民族、職業、翻譯方向等) 、翻譯方式、翻譯型別、源語、原書情況、出版社等等均一一予以標註。--北大雙語語料庫北大計算語言學研究所的雙語語料庫,英漢對齊的句子已有5萬多對,並開發了相應的對齊工具和雙語語料庫管理軟體。正在此基礎上做漢英對照短語庫,預計規模將達數十萬條。--中英雙語線上(CEO)測試開通網址為 http://www.fleric.org.cn/ceo/--紅樓夢漢英平行語料庫http://score.crpp.nie.edu.sg/hlm/index.htm-- The Babel English-Chinese Parallel Corpushttp://www.lancs.ac.uk/fass/projects...abel/babel.htmThe Babel English-Chinese Parallel Corpus,which was created on our research project Contrasting English and Chinese (ESRC Award Reference RES-000-23-0553),consists of 327 English articles and their translations in Mandarin Chinese. Of these 115 texts (121,493 English tokens plus 135,493 Chinese tokens) were collected from the World of English between October 2000 and February 2001 while the remaining 212 texts (132,140 English tokens plus 151,969 Chinese tokens) were collected from Time from September 2000 to January 2001. The corpus contains a total of 544,095 words (253,633 English words and 287,462 Chinese tokens). Here is a list of the titles of the articles included in the corpus.The corpus is tagged for part of speech and aligned at the sentence level. The English texts were tagged using the CLAWS C7 tagset while Chinese texts were tagged using the Peking University tagset. Sentence alignment was done automatically and corrected by hand. The corpus is also marked for paragraph and sentence. But different markup systems were adopted for the two subcorpora. For the component of the World of English, sentences were marked consecutively throughout whereas for Time, sentences were marked within each paragraph.The Babel parallel corpus can be accessed via the ParaConc Web or MySql interface (both hosted at The Institute of Education, Singapore). Users can search in either English or Chinese texts. The concordancer returns matched whole sentences and their translations as well as the their locations. At the bottom of the resulting concordance page is a query report that indicate the query strings and distribution of matches. Users can also specify the format the output concordances as POS-tagged or plain texts.--上海交通大學語言工程研究所目前有JDEST,LOB,BROWN,CLEC四個語料庫共計700萬詞可供網上檢索, 並可以對檢索和統計資料結果下載.http://corpus.sjtu.edu.cn/WebCast/ --The Translational English Corpus (TEC)http://www.llc.manchester.ac.uk/ctis/research/english-corpus/http://ronaldo.cs.tcd.ie/tec/jnlp/--English Chinese Parallel Concordancer (E-C Concord) The Hong Kong Institute of Education.Project leader: Dr. Wang Lixun. Program designers: Chris Greaves, Wang Lixunhttp://ec-concord.ied.edu.hk/paraconc/index.htm --Academia Sinica Balanced Corpus of Modern Chinese 中央研究院現代漢語平衡語料庫http://www.sinica.edu.tw/SinicaCorpus/--Lancaster Corpus of Mandarin Chinesehttp://bowland-files.lancs.ac.uk/cor...gi-bin/conc.plmay be changed to http://www.lancs.ac.uk/fass/projects/corpus/LCMC/--People's Daily 2000 corpussome related information here http://www.lancs.ac.uk/fass/projects/corpus/pdc2000/default.htm--A Parallel Corpus of Chinese Legal Texts 中國法律檔案漢英平行語料庫http://score.crpp.nie.edu.sg/law/index.htm--語料庫語言學與英語教育教學。華南師範大學外國語言文化學院語料庫語言學研究室http://sfs.scnu.edu.cn/corpus4u/default.aspx語料庫工具http://www.fleric.org.cn/crg/tools.htm 北外語料庫語言學沙龍 Beiwai Corpus Research Group (CRG) Corpus tools developed by group members Chi-square and loglikelihood Calculator, (卡方檢驗和對數似然率計算工具) TreeTagger for Windows, (語料庫詞性標註工具TreeTagger的Windows介面) Colligator 1.0 & 2.0, (語料庫類聯接分析工具) PatternBuilder 1.0, (賦碼語料庫檢索輔助工具) The Edinburgh Associative Thesaurus (EAT) for Windows,(愛丁堡聯想詞庫Windows查詢工具) Wordlist Tools 1.0 Beta,(詞表分析工具) My Good Old Blackboard,(我的電子黑板) BFSU Stanford Parser 1.0,(英文自動句法分析工具)。 BFSU Stanford POS Tagger 1.0,(英文自動詞性賦碼工具)。 BFSU Sentence Collector 1.0,(例句提取工具)。 BFSU NewWord Marker 1.0,(生詞標註工具)。 BFSU Sentence Segmenter 1.0,(英文自動分句工具)。 Web Colligator。 Collocator 1.0: A collocation extraction tool,(搭配分析工具)。 Log-likelihood ratio calculator,(對數似然率計算器)。 Readability Analyzer 1.0 ,(英文文字可讀性分析工具)。 Other free corpus tools AntConc: A free concordancer(跟WordSmith主要功能接近的語料庫索引工具) Range: Vocabulary coverage tools(基於底表的分級詞彙測量工具)語料庫檢索軟體Paraconc 和Multiconcord:Paraconc由Barlow製作(該軟體的演示版可在網上下載),該軟體的特點是可以進行多達四種語言的同時檢索,或者是一個原文的三個譯本的檢索。這一軟體的特點是可以靈活定義語言、索引行的大小、標註符號的隱顯,而且支援萬用字元檢索。Multiconcord也是一個在Windows視窗下執行的軟體。這種軟體和Paraconc在檢索功能上相似,但檢索結果在呈現方式上不同。另外,Paraconc可以檢索純文字格式的檔案;Multiconcord 則需要一個Minimark 程式來最低程度地標記文字,如< p > (段落) 和< s > (句子)。

相關文章