三國演義內容抓取（詩詞名句網）

随风小屋發表於2024-08-07

原文網址 : https://www.cnblogs.com/suifeng2000/p/18346228

三國演義內容抓取（詩詞名句網）

時間：2024-08-06

一、完整程式碼

import random
import time

import requests
from lxml import etree

four_famous_novels = 'https://www.shicimingju.com/bookmark/sidamingzhu.html'  # 四大名著線上閱讀地址
three_kingdoms = 'https://www.shicimingju.com/book/sanguoyanyi.html'  # 三國演藝地址
header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36 Edg/125.0.0.0'
}
req = requests.get(three_kingdoms, headers=header)
req.encoding = req.apparent_encoding
# print(req.text)
tree = etree.HTML(req.text)
book_mulu = tree.xpath('//div[@class="book-mulu"]/ul/li/a/text()')
mulu_href = tree.xpath('//div[@class="book-mulu"]/ul/li/a/@href')
for i in range(len(book_mulu)):
    url = 'https://www.shicimingju.com' + mulu_href[i]
    print(url)
    req_content = requests.get(url, headers=header)
    req_content.encoding = req_content.apparent_encoding
    tree = etree.HTML(req_content.text)
    content = tree.xpath('//div[@class="chapter_content"]//text()')
    print(book_mulu[i])
    print(content)
    time.sleep(random.randint(1, 4))

效果：

二、知識點

2.1 隨機時間點（避免網站壓力大）

    time.sleep(random.randint(1, 4))

三、思路

 第一步： 先抓取目錄和目錄下面的連結
 
 第二步： 迴圈所有的urls ，然後抓取下面的內容
 
 第三步TODO： 建立一個三國演繹的資料夾，然後裡面按照  01 章+ 章節名.txt 進行文字內容寫入

國內五大主流網站內容抓取工具/採集軟體大盤點
2018-12-12
網站
詩詞
2021-08-02
豐富的詩詞資源！一個現代化詩詞學習網站！
2024-09-29
學習網站
WordPress快速增加百度收錄,加快網站內容抓取
2019-04-02
網站
Swift抓取某網站律師內容並做排名篩選
2024-01-19
Swift網站
古詩詞相關詞庫
2020-10-03
toapi：抓取任意網頁內容並提供 HTTP API獲取資料
2024-05-07
API網頁HTTP
爬蟲，可用於增加訪問量和抓取網站全頁內容
2018-09-08
爬蟲網站
Python爬蟲，抓取淘寶商品評論內容!
2018-06-24
Python爬蟲
自定義shell提示內容
2024-10-07
Java實現網路爬蟲案例程式碼：從網上獲取《三國演義》全文
2022-09-22
Java爬蟲
古詩詞中文分詞自動化
2018-04-05
分詞
1230-詩詞問答
2021-12-30
php獲取網頁內容的三種方法
2018-10-17
PHP網頁
只有程式設計師才能讀懂的三國演義（一）
2020-03-10
程式設計師
只有程式設計師才能讀懂的三國演義（二）
2020-03-11
程式設計師
大魚胡侃---智慧手機系統之三國演義
2020-04-04
分享一個開源的古詩詞資料庫(約7w+古詩詞/3k+詩人)
2018-04-01
資料庫
利用Python網路爬蟲抓取網易雲音樂歌詞
2018-05-06
Python爬蟲
網站文章內容修改如何修改網站文章內容
2024-11-30
網站
比較喜歡的詩詞
2024-07-13
《三國：全面戰爭》評測：由你書寫三國史詩
2019-05-17
詩三首
2021-06-11
mongodb 容災演練操作步步驟【適用於計劃內演練】
2018-08-31
MongoDB
《三國殺》臺詞“殺”字遭和諧網友：變成了三國打
2019-07-05
網際網路內容產業報告：內容付費崛起，優質內容為王
2018-07-09
產業
DFA演算法之內容敏感詞過濾
2022-04-21
演算法
三國全面戰爭：優質內容的未來方向
2019-05-29
無監督詩詞風格生成
2018-11-23
App《最美詩詞》開發 -- 開篇
2018-06-11
APP
GitHub - hefengbao/jingmo: 『京墨』開源的中華文化寶典 APP，詩（詞）文（名句）、漢字、成語、詞語、歇後語、繞口令、傳統節日、傳統色、節氣、人物等。
2024-07-21
GithubAPP
抓取網頁的含義和URL基本構成
2023-10-24
網頁
自定義 Passport token 失效後返回內容
2019-01-22
Passport
BeetleX之webapi自定義響應內容
2020-10-13
WebAPI
公司網站如何更改內容公司網站如何更改內容資訊
2024-10-14
網站
怎樣修改公司網站內容，公司網站內容更新最佳實踐
2024-12-05
網站
直播原始碼網站，自定義平臺介面，完成各項內容更改
2021-12-29
原始碼網站
內網基礎名詞解釋
2024-06-10
內網

三國演義內容抓取（詩詞名句網）

三國演義內容抓取（詩詞名句網）

一、完整程式碼

二、知識點

2.1 隨機時間點（避免網站壓力大）

三、思路

相關文章