網上可供下載的資料集合大整理

晨晨發表於2012-03-10

本文嚴禁轉載,歡迎連結

目前網上可供下載的資料眾多,但是內容龐雜,我把其中比較有用的資料找了出來。

wiki系: wikipedia大家都不陌生,它的下載地址是:http://dumps.wikimedia.org/ , 這裡有詳細介紹:http://en.wikipedia.org/wiki/Wikipedia:Database_download 但是wikipedia只是Wikimedia基金會的一個子專案,wikimedia下面還有多個其他的重要專案,包括: wiktionary 一個語義化的關聯詞典,形式上類似於wordnet wikiquote 收錄各種名人名言 Wikibooks 免費的教科書和手冊 Wikinews 大量的新聞故事 Wikiversity 免費的教育材料 Wikisource 免費的文字內容 上述的這些內容,都可以通過http://dumps.wikimedia.org/ 下載到。 還有一些小型的wiki專案,比如: http://simple.wikipedia.org 使用Basic English寫的wiki,給兒童和初學者看 http://simple.wiktionary.org 使用Basic English寫的wiktionary

wikipedia的資料處理有很多方式,我比較推崇這兩個: jwpl: http://code.google.com/p/jwpl/ wikipedia-miner: http://wikipedia-miner.cms.waikato.ac.nz/wiki/

下面我介紹下另一個商業化的wiki網站:http://www.wikia.com
這個網站上使用者可以建立單獨的維基網站,下面是排名前250位wikia網站: http://wikis.wikia.com/wiki/List_of_Wikia_wikis wikia上的資源也可供下載:http://community.wikia.com/wiki/Help:Database_download

Freebase: freebase是啥就不解釋了,下面給出資料的下載地址: http://wiki.freebase.com/wiki/Data_dumps freebase自身的資料 http://wiki.freebase.com/wiki/WEX freebase從wikipedia中提取的資料

YAGO2: http://www.mpi-inf.mpg.de/yago-naga/yago/

dbpedia: http://www.dbpedia.org

如果要找LinkedData,可以來這裡:http://www.thedatahub.org 這裡收集了很多Linked Data http://linkeddata.org/ 這裡有一張圖,給出了各種linkeddata的關係和影響力。

如果要找各種網上的api,可以來這裡:http://www.programmableweb.com
現在外國政府紛紛對外公開資料,下面是幾個政府的開放資料集: http://data.gov.au 澳大利亞 http://data.dc.gov 美國哥倫比亞州的 http://www.data.gov 美國 http://data.gov.uk 英國 http://databases.lapl.org/ 洛杉磯地區的開放資料集,知道矽谷為啥這麼牛了吧 http://www.gov.hk/en/theme/psi/welcome 香港政府也公開了很多資料 對比一下,外國政府做了這麼多實事,人民大會堂裡的那些酒囊飯袋們都在幹什麼?

http://lexsrv3.nlm.nih.gov/LexSysGroup/Projects/lexAccess/current/web/download.html 美國國家衛生署釋出的詞表 http://www.census.gov/genealogy/www/data/2000surnames/index.html 美國統計局的姓名資料 https://www.cia.gov/library/publications/download/ 美國中央情報局釋出的factbook,介紹了世界各國情況 連衛生署,統計局和中情局這種單位都為美國的資訊建設做出了這麼多的貢獻,我們應該知道自己跟美帝的差距有多大了吧。

敘詞表: http://www.nlm.nih.gov/mesh/filelist.html mesh,關於醫學的受控詞表 http://id.loc.gov/download/ 美國國會圖書館釋出的敘詞表

一些三元組資料: http://www.cs.utexas.edu/users/pclark/dart/ 採集自BNC(英國國家語料庫)和Reuters,2300萬條 http://reverb.cs.washington.edu/ 華盛頓大學的專案,1500萬條 http://www.cs.washington.edu/research/sherlock-hornclauses/ 大約有200-300萬條資料 http://www.cs.rochester.edu/research/knext 有535萬條資料,來自BNC和布朗語料庫 http://rtw.ml.cmu.edu/rtw/resources readtheweb專案,資料量較小

機讀詞典: http://wordnet.princeton.edu/ 英語的wordnet http://nlpwww.nict.go.jp/wn-ja/index.en.html 日語的wordnet http://alpage.inria.fr/~sagot/wolf-en.html 法語的wordnet http://wordnet.ru/ 俄羅斯的wordnet http://cl.haifa.ac.il/projects/mwn/index.shtml 希伯來語的wordnet http://wordnet.dk/dannet/menu?item=2 丹麥語的wordnet http://grial.uab.es/sensem/download?idioma=en 西班牙語的wordnet http://www.ling.helsinki.fi/en/lt/research/finnwordnet/download.shtml 芬蘭語的wordnet 這些不同版本的wordnet都是免費下載的。可恨中國泱泱五千年的文明古國,文獻典故浩如煙海,竟連一份免費公開的機讀詞典都沒有。這是漢語的恥辱,中國的恥辱,也是中華民族的恥辱。特別是中科院計算所和自動化所的人們,你們覺得呢?(順祝hownet生意興隆,越賣越好)

http://dico.fj.free.fr/dico.php 日法詞典 http://www.csse.monash.edu.au/~jwb/edict.html 日英詞典 http://cc-cedict.org/wiki/start 中文到英文的詞典,終於出來中文的了,可惜是外國人搞出來的。 https://framenet.icsi.berkeley.edu 基於框架語義學的東東,恐怕不能算詞典,不過沒地兒放了。

語料庫: http://opus.lingfil.uu.se/ 開放的平行語料庫 http://opus.lingfil.uu.se/OpenSubtitles_v2.php 大量電影字幕的下載地址 http://www.statmt.org/europarl 歐洲議會的平行語料庫 http://www.anc.org/OANC/ 開放的美國國家語料庫

http://snap.stanford.edu/data/ 史丹佛大學的SNAP專案,抓了很多資料,不過時間較早,只有研究價值

上面所列出的資料大多是英文的,中文的可供下載的資料少到可以忽略不計。這種局面恐怕十年內未必會改變。

相關文章