網上可供下載的資料集合大整理
本文嚴禁轉載,歡迎連結
目前網上可供下載的資料眾多,但是內容龐雜,我把其中比較有用的資料找了出來。
wiki系: wikipedia大家都不陌生,它的下載地址是:http://dumps.wikimedia.org/ , 這裡有詳細介紹:http://en.wikipedia.org/wiki/Wikipedia:Database_download 但是wikipedia只是Wikimedia基金會的一個子專案,wikimedia下面還有多個其他的重要專案,包括: wiktionary 一個語義化的關聯詞典,形式上類似於wordnet wikiquote 收錄各種名人名言 Wikibooks 免費的教科書和手冊 Wikinews 大量的新聞故事 Wikiversity 免費的教育材料 Wikisource 免費的文字內容 上述的這些內容,都可以通過http://dumps.wikimedia.org/ 下載到。 還有一些小型的wiki專案,比如: http://simple.wikipedia.org 使用Basic English寫的wiki,給兒童和初學者看 http://simple.wiktionary.org 使用Basic English寫的wiktionary
wikipedia的資料處理有很多方式,我比較推崇這兩個: jwpl: http://code.google.com/p/jwpl/ wikipedia-miner: http://wikipedia-miner.cms.waikato.ac.nz/wiki/
下面我介紹下另一個商業化的wiki網站:http://www.wikia.com
這個網站上使用者可以建立單獨的維基網站,下面是排名前250位wikia網站:
http://wikis.wikia.com/wiki/List_of_Wikia_wikis
wikia上的資源也可供下載:http://community.wikia.com/wiki/Help:Database_download
Freebase: freebase是啥就不解釋了,下面給出資料的下載地址: http://wiki.freebase.com/wiki/Data_dumps freebase自身的資料 http://wiki.freebase.com/wiki/WEX freebase從wikipedia中提取的資料
YAGO2: http://www.mpi-inf.mpg.de/yago-naga/yago/
dbpedia: http://www.dbpedia.org
如果要找LinkedData,可以來這裡:http://www.thedatahub.org 這裡收集了很多Linked Data http://linkeddata.org/ 這裡有一張圖,給出了各種linkeddata的關係和影響力。
如果要找各種網上的api,可以來這裡:http://www.programmableweb.com
現在外國政府紛紛對外公開資料,下面是幾個政府的開放資料集:
http://data.gov.au 澳大利亞
http://data.dc.gov 美國哥倫比亞州的
http://www.data.gov 美國
http://data.gov.uk 英國
http://databases.lapl.org/ 洛杉磯地區的開放資料集,知道矽谷為啥這麼牛了吧
http://www.gov.hk/en/theme/psi/welcome 香港政府也公開了很多資料
對比一下,外國政府做了這麼多實事,人民大會堂裡的那些酒囊飯袋們都在幹什麼?
http://lexsrv3.nlm.nih.gov/LexSysGroup/Projects/lexAccess/current/web/download.html 美國國家衛生署釋出的詞表 http://www.census.gov/genealogy/www/data/2000surnames/index.html 美國統計局的姓名資料 https://www.cia.gov/library/publications/download/ 美國中央情報局釋出的factbook,介紹了世界各國情況 連衛生署,統計局和中情局這種單位都為美國的資訊建設做出了這麼多的貢獻,我們應該知道自己跟美帝的差距有多大了吧。
敘詞表: http://www.nlm.nih.gov/mesh/filelist.html mesh,關於醫學的受控詞表 http://id.loc.gov/download/ 美國國會圖書館釋出的敘詞表
一些三元組資料: http://www.cs.utexas.edu/users/pclark/dart/ 採集自BNC(英國國家語料庫)和Reuters,2300萬條 http://reverb.cs.washington.edu/ 華盛頓大學的專案,1500萬條 http://www.cs.washington.edu/research/sherlock-hornclauses/ 大約有200-300萬條資料 http://www.cs.rochester.edu/research/knext 有535萬條資料,來自BNC和布朗語料庫 http://rtw.ml.cmu.edu/rtw/resources readtheweb專案,資料量較小
機讀詞典: http://wordnet.princeton.edu/ 英語的wordnet http://nlpwww.nict.go.jp/wn-ja/index.en.html 日語的wordnet http://alpage.inria.fr/~sagot/wolf-en.html 法語的wordnet http://wordnet.ru/ 俄羅斯的wordnet http://cl.haifa.ac.il/projects/mwn/index.shtml 希伯來語的wordnet http://wordnet.dk/dannet/menu?item=2 丹麥語的wordnet http://grial.uab.es/sensem/download?idioma=en 西班牙語的wordnet http://www.ling.helsinki.fi/en/lt/research/finnwordnet/download.shtml 芬蘭語的wordnet 這些不同版本的wordnet都是免費下載的。可恨中國泱泱五千年的文明古國,文獻典故浩如煙海,竟連一份免費且公開的機讀詞典都沒有。這是漢語的恥辱,中國的恥辱,也是中華民族的恥辱。特別是中科院計算所和自動化所的人們,你們覺得呢?(順祝hownet生意興隆,越賣越好)
http://dico.fj.free.fr/dico.php 日法詞典 http://www.csse.monash.edu.au/~jwb/edict.html 日英詞典 http://cc-cedict.org/wiki/start 中文到英文的詞典,終於出來中文的了,可惜是外國人搞出來的。 https://framenet.icsi.berkeley.edu 基於框架語義學的東東,恐怕不能算詞典,不過沒地兒放了。
語料庫: http://opus.lingfil.uu.se/ 開放的平行語料庫 http://opus.lingfil.uu.se/OpenSubtitles_v2.php 大量電影字幕的下載地址 http://www.statmt.org/europarl 歐洲議會的平行語料庫 http://www.anc.org/OANC/ 開放的美國國家語料庫
http://snap.stanford.edu/data/ 史丹佛大學的SNAP專案,抓了很多資料,不過時間較早,只有研究價值
上面所列出的資料大多是英文的,中文的可供下載的資料少到可以忽略不計。這種局面恐怕十年內未必會改變。
相關文章
- 人工智慧大資料,公開的海量資料集下載,ImageNet資料集下載,資料探勘機器學習資料集下載人工智慧大資料機器學習
- Flutter下拉重新整理,上拉載入更多資料Flutter
- Mozilla Firefox 119 現已可供下載Firefox
- 菜鳥網路:大資料賦能網際網路+物流(附下載)大資料
- 請問本論壇有ddd結合應用的資源可供下載麼?
- 大資料教父Michael Stonebraker告訴你大資料的祕密(附下載)大資料
- 用SecureCRT來上傳和下載資料Securecrt
- 大資料下網站資料分析應用大資料網站
- 整理最全的“大資料”學習資源大資料
- iOS 學習資料整理(上)iOS
- ASP.NET中檔案上傳下載方法集合ASP.NET
- 大資料技術之_16_Scala學習_07_資料結構(上)-集合大資料資料結構
- 理解大資料:數字時代的資料和隱私(附下載)大資料
- 大資料下的資料安全大資料
- 大資料 (巨量資料集合(IT行業術語))大資料行業
- 摸象大資料:西安女性消費大資料包告(附下載)大資料
- 非常全的大資料相關資源整理大資料
- [轉載]資料系統整理(一)
- 史上最全“大資料”學習資源集合大資料
- 摸象大資料:武漢女性消費大資料排行榜(附下載)大資料
- 基於FileZilla上傳、下載伺服器資料的方法伺服器
- 第一部分 A股資料下載與整理
- hadoop(7)–下載資料來源碼解析(上)Hadoop
- jQuery 如何操作cookie (網上資料太亂,故特意整理最簡單的)jQueryCookie
- 蘋果上線新網站 可刪除 Apple ID 和下載資料了蘋果網站APP
- 手機上的大資料:手機大資料的挑戰大資料
- 下載資料的處理
- ajax無重新整理載入資料
- oralce資料庫日誌檢視方法(整理轉載自網路)資料庫
- oracle資料下載Oracle
- SiteSucker Pro Mac(Mac網站資料下載神器)Mac網站
- Python中幾種資料結構的整理,列表、字典、元組、集合Python資料結構
- 艾瑞諮詢:2017年度資料釋出集合報告(附下載)
- GIS資料獲取:氣象資料免費下載網站網站
- 大資料環境下的網路安全挑戰分析大資料
- CBNData:2017中國網際網路消費生態大資料包告(附下載)大資料
- 如何用程式下載網上檔案
- 大資料學習路線圖,都是網上找的資料,分享下。如有問題,請及時聯絡更正大資料