專案的Github地址:poetry
古詩詞資料庫
這個古詩詞資料庫是2017年從古詩文網爬取下來的,目前的資料總量雖不及古詩文網,但其詩詞資料進行了一定的清洗整理和格式化,方便給需要的人做研究或者做些創意。這個古詩詞資料庫目前主要有73281首古詩詞和3156個詩人的詳細資料,並且已經應用在兩個應用上:詩鯨Android客戶端和詩鯨微信小程式。
資料說明
1.gushiwen 資料夾
這個資料夾下面是爬蟲爬取的原始內容,其中 view
資料夾裡面是一首首古詩,author
資料夾裡面是一個個詩人,ju
資料夾裡面是一些詩詞名句。
2.image 資料夾
這個資料夾下面是是人的頭像圖片,image_xxx.jpg
表示這是編號為xxx的詩人的頭像URL地址。
3.data 資料夾
這個資料夾是目前最新的整理資料,其中子目錄 poetry
裡面是一首首古詩,poet
裡面是一個個詩人,aio
(all in one) 存放的檔案是將詩人和詩詞資料整理到一個檔案的結果。
4.其他資料夾
其他資料夾中的內容是為了應用向下相容而保留的舊版本的整理資料,可以不用關注。
資料結構
1.詩詞資料
id
是詩詞在古詩文網上的索引(最近古詩文網改版了,已經不是用id了),name
是詩詞的名稱,content
是詩詞的內容,dynasty
是詩詞的朝代,star
是資料爬取時這首詩詞的點贊人數,poet
是詩人的資訊,fanyi
是詩詞的註釋和釋義等資料,shangxi
是詩詞的賞析,about
是關於這首詩詞的其他內容,例如詩人的創作背景等,在古詩文網凡不是詩詞釋義和詩詞賞析的內容都會歸總到關於詩詞的內容中。
{
"about": "創作背景\n\n  唐玄宗天寶初年,李白xxx",
"content": "君不見,黃河之水天上來,奔流到海不復回。xxx",
"dynasty": "唐代",
"fanyi": "譯文\n你難道看不見那黃河之水從天上奔騰而來,波濤翻滾直奔東海,從不再往回流。xxx",
"id": 7722,
"name": "將進酒",
"poet": {
"desc": "李白(701年-762年),字太白,號青蓮居士,唐朝浪漫主義詩人,被後人譽為“詩仙”。xxx",
"id": 247,
"image": "https://raw.githubusercontent.com/hujiaweibujidao/poetry/master/image/image_247.jpg",
"name": "李白",
"star": 0
},
"shangxi": "鑑賞\n\n  將進酒,唐代以前樂府歌曲的一個題目,內容大多詠唱飲酒放歌之事。xxx",
"star": 32615,
"tags": [
"樂府",
"唐詩三百首",
"詠物",
"抒情",
"哲理",
"宴飲"
]
}
複製程式碼
2.詩人資料
id
是詩人在古詩文網上的索引(最近古詩文網改版了,已經不是用id了),name
是詩人的姓名,desc
是詩人的簡介,content
是詩人的詳細介紹,dynasty
是詩人的朝代,star
是資料爬取時這個詩人的點贊人數。
{
"content": "軼事典故\n\n姓名由來\nxxx",
"desc": "李白(701年-762年),字太白,號青蓮居士,唐朝浪漫主義詩人,被後人譽為“詩仙”。xxx",
"dynasty": "唐代",
"id": 247,
"image": "https://raw.githubusercontent.com/hujiaweibujidao/poetry/master/image/image_247.jpg",
"name": "李白",
"star": 4895
}
複製程式碼
LICENSE
GNU General Public License version 3
Copyright (c) 2018 Javayhu. All rights reserved.