爬蟲入門經典 | 一文帶你爬取傳統古詩詞!

wxt020發表於2020-10-31

中國文學源遠流長,早在遠古時代,雖然文字還沒有產生,但在人民中間已經流傳著神話傳說和民間歌謠等口頭文學。隨著時間線的推移,先後出現了:詩經(西周)——楚辭(戰國)——樂府(漢)——賦(晉)——唐詩——宋詞——元曲——明清小說。

現在一提,不知各位想到的是什麼。但是博主本人首先想到的詩歌是《阿房宮賦》、《水調歌頭·明月幾時有》、《念奴嬌·赤壁懷古》、《茅屋為秋風所破歌》等等。可能是因為這些個別的詩歌賊長,在高中時期折磨過我的原因吧-。-

現在有一個新的職業——網路文學作家,他們寫小說釋出在網上,透過其有趣的故事情節及其豐富的主分線並行等特點吸引大批作者,從而達到掙錢的目的。但是,不知你知道與否,早在我國古代的明清時期,白話小說就已經蓬勃發展了。在那是,出現了“章回體小說”。一提到“章回體小說”,我們就不得不提到四大名著。名著之所以能夠成為名著,是與其特點分不開的。它們的特點是分回標目,常取一個或兩個中心事件為一回,每回篇幅大致相等,情節前後銜接,開頭、結尾常用“話說”“且聽下回分解”等口頭語,中間穿插詩詞韻文,結尾故設懸念吸引讀者。除了四大名著之外,還有博主最喜歡的兩本書:《儒林外史》、《聊齋志異》。哈哈,博主在此宣告,我不是推銷小說的啊。只是單純的有感而發而已。如果各位想要看看博主推薦的書的話,也是可以的。總之你看了也沒有任何壞處。

我國古典文學如此之多,在整個世界上也是實屬罕見的。那麼,作為新世紀國家的創造者,我們因該的做的就是傳承好古典文學。古為今用,弘揚社會主義價值觀,好讓中國文學能夠繼續更好的繼承下去。

現在因該會有讀者會說,改進入正題了。?,從現在開始進入正題。

上面說了那麼多,雖然看似與本文無關,但是其實是有關係的。想象一下,既然我們要更多的品味古典文學,我們是不是要專門的檢視借鑑。但是又由於現在我們的時間都是零碎化的時間快,單獨看書又不太現實。現如今網路如此之發達,我們每個人基本上都已經離不開電腦、手機了。那麼我們可不可以透過Python爬蟲的方式,把這些內容全不爬取出來,然後透過電子裝置進行閱讀呢?

下面就開始實現此設想。

二、網頁分析

從理想到現實的第一步,當然是先找到網站了。

古詩文網https:// .bzcdn.cn/

我們開啟網址之後,發現網頁如下:

2.1 確定要爬取的內容對應的url

我們先檢視網頁的結構

  •  1. 先點選更多 檢視多有的型別

程式碼:

start_url = "

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69984164/viewspace-2731394/,如需轉載,請註明出處,否則將追究法律責任。

相關文章