python爬蟲練習之爬取豆瓣讀書所有標籤下的書籍資訊

StarLord007發表於2018-07-23

原文網址 : https://blog.csdn.net/q1694222672/article/details/81171675

Python爬蟲

第一步，爬取所有圖書標籤及分類

到達圖書標籤頁，分類瀏覽，第一步需要爬取所有分類及其分類下的所有標籤
並用dict儲存

豆瓣圖書標籤的連結

這裡寫圖片描述

需要解析的內容
這裡寫圖片描述

1.bs4解析

import requests
from bs4 import BeautifulSoup

url = 'https://book.douban.com/tag/?view=type'
tag_dict = {}

def get_dict():             #介面，提供這個標籤字典
    return tag_dict

r = requests.get(url)
soup = BeautifulSoup(r.text,'lxml')
title = soup.select('div div a h2')     #第一步找到h2標籤，因為更細緻，a標籤就找不到
#然後通過h2標籤找到爺爺級標籤，就是div盒子了
for i in title:
    a = i.find_parent()     #找到父親a標籤
    div = a.find_parent()   #找到父親div
    tag_title = a.select('h2')[0].get_text()[:2]    #找到h2標籤取出內容並切片取出前兩個字
    tags = div.select('tr td a')    #找到td中的a標籤
    tag_list = []
    for j in tags:
        tag_list.append(j.get_text())   #迴圈取出a標籤中的內容
    tag_dict[tag_title] = tag_list

for i in tag_dict:
    print(i+':',end='')
    print(tag_dict[i])
-------------------------------------------------------------------------------
文學 ['小說', '外國文學', '文學', '隨筆', '中國文學', '經典', '日本文學', '散文', '村上春樹', '詩歌', '童話', '兒童文學', '古典文學', '王小波', '名著', '雜文', '餘華', '張愛玲', '當代文學', '錢鍾書', '外國名著', '魯迅', '詩詞', '茨威格', '米蘭·昆德拉', '杜拉斯', '港臺']
流行 ['漫畫', '推理', '繪本', '青春', '東野圭吾', '科幻', '言情', '懸疑', '奇幻', '武俠', '日本漫畫', '韓寒', '耽美', '推理小說', '亦舒', '網路小說', '三毛', '安妮寶貝', '郭敬明', '穿越', '阿加莎·克里斯蒂', '金庸', '輕小說', '科幻小說', '青春文學', '幾米', '魔幻', '幾米', '張小嫻', 'J.K.羅琳', '古龍', '高木直子', '滄月', '校園', '落落', '張悅然']
文化 ['歷史', '心理學', '哲學', '傳記', '文化', '社會學', '藝術', '設計', '社會', '政治', '建築', '宗教', '電影', '政治學', '數學', '中國歷史', '回憶錄', '思想', '國學', '人文', '人物傳記', '音樂', '藝術史', '繪畫', '戲劇', '西方哲學', '二戰', '軍事', '佛教', '近代史', '考古', '自由主義', '美術']
生活 ['愛情', '旅行', '生活', '成長', '心理', '勵志', '女性', '攝影', '職場', '教育', '美食', '遊記', '靈脩', '健康', '情感', '兩性', '人際關係', '手工', '養生', '家居', '自助遊']
經管 ['經濟學', '管理', '經濟', '商業', '金融', '投資', '營銷', '創業', '理財', '廣告', '股票', '企業史', '策劃']
科技 ['科普', '網際網路', '程式設計', '科學', '互動設計', '使用者體驗', '演算法', '科技', 'web', 'UE', '互動', '通訊', 'UCD', '神經網路', '程式']

2.re解析

import requests
import re

url = 'https://book.douban.com/tag/?view=type'
tag_dict = {}

def get_dict():             #介面，提供這個標籤字典
    return tag_dict

r = requests.get(url).text
tag_title = re.findall('<a name="(.*?)".*?tag-title-wrapper', r, re.S)  #直接找到類別
tags = re.findall('table.*?tbody>(.*?)</tbody',r,re.S)  #找到每個div裡tbody的內容
tags.remove(tags[0])
for n,i in enumerate(tags):
    tag_list = re.findall('">(.*?)</a><b',i,re.S)   #在tbody裡找到每個a標籤的內容
    tag_dict[tag_title[n]] = tag_list

for i in tag_dict:
    print(i,tag_dict[i])
-------------------------------------------------------------------------------------------
文學:['小說', '外國文學', '文學', '隨筆', '中國文學', '經典', '日本文學', '散文', '村上春樹', '詩歌', '童話', '兒童文學', '古典文學', '王小波', '名著', '雜文', '餘華', '張愛玲', '當代文學', '錢鍾書', '外國名著', '魯迅', '詩詞', '茨威格', '米蘭·昆德拉', '杜拉斯', '港臺']
流行:['漫畫', '推理', '繪本', '青春', '東野圭吾', '科幻', '言情', '懸疑', '奇幻', '武俠', '日本漫畫', '韓寒', '耽美', '推理小說', '亦舒', '網路小說', '三毛', '安妮寶貝', '郭敬明', '穿越', '阿加莎·克里斯蒂', '金庸', '輕小說', '科幻小說', '青春文學', '幾米', '魔幻', '幾米', '張小嫻', 'J.K.羅琳', '古龍', '高木直子', '滄月', '校園', '落落', '張悅然']
文化:['歷史', '心理學', '哲學', '傳記', '文化', '社會學', '藝術', '設計', '社會', '政治', '建築', '宗教', '電影', '政治學', '數學', '中國歷史', '回憶錄', '思想', '國學', '人文', '人物傳記', '音樂', '藝術史', '繪畫', '戲劇', '西方哲學', '二戰', '軍事', '佛教', '近代史', '考古', '自由主義', '美術']
生活:['愛情', '旅行', '生活', '成長', '心理', '勵志', '女性', '攝影', '職場', '教育', '美食', '遊記', '靈脩', '健康', '情感', '兩性', '人際關係', '手工', '養生', '家居', '自助遊']
經管:['經濟學', '管理', '經濟', '商業', '金融', '投資', '營銷', '創業', '理財', '廣告', '股票', '企業史', '策劃']
科技:['科普', '網際網路', '程式設計', '科學', '互動設計', '使用者體驗', '演算法', '科技', 'web', 'UE', '互動', '通訊', 'UCD', '神經網路', '程式']

2.未完待續

java爬取豆瓣書籍資訊
2019-01-03
Java
Python爬蟲教程+書籍分享
2018-11-29
Python爬蟲
【python爬蟲案例】利用python爬取豆瓣讀書評分TOP250排行資料
2024-09-20
Python爬蟲
爬蟲利器Pyppeteer的介紹和使用爬取京東商城書籍資訊
2020-09-22
爬蟲
python爬蟲學習01--電子書爬取
2020-07-13
Python爬蟲
2019最新Python爬蟲教程+書籍分享
2019-01-06
Python爬蟲
Python一鍵爬取你所關心的書籍資訊
2019-03-05
Python
Day1--豆瓣圖書爬蟲
2019-03-21
爬蟲
python爬蟲練習--爬取虎牙主播原畫視訊
2020-11-28
Python爬蟲
爬蟲01:爬取豆瓣電影TOP 250基本資訊
2020-12-29
爬蟲
手機版python爬取網頁書籍
2020-12-19
Python網頁
Python爬蟲訓練：爬取酷燃網視訊資料
2020-10-23
Python爬蟲
python爬蟲爬取豆瓣電影 1-10 ajax 資料
2024-07-04
Python爬蟲
Python第一個爬蟲，爬取噹噹網 Top 500 本五星好評書籍
2019-07-19
Python爬蟲
python爬蟲——爬取大學排名資訊
2019-08-02
Python爬蟲
python爬蟲--爬取鏈家租房資訊
2020-05-16
Python爬蟲
爬蟲練習——爬取縱橫中文網
2020-10-19
爬蟲
小白學 Python 爬蟲（25）：爬取股票資訊
2019-12-24
Python爬蟲
Python爬蟲筆記（4）：利用scrapy爬取豆瓣電影250
2018-11-10
Python爬蟲筆記
Python爬蟲教程-17-ajax爬取例項（豆瓣電影）
2018-09-06
Python爬蟲
python書籍推薦-Python爬蟲開發與專案實戰
2019-06-11
Python爬蟲
Python爬蟲入門【10】：電子書多執行緒爬取
2019-07-31
Python爬蟲執行緒
Python爬蟲實戰：爬取淘寶的商品資訊
2021-09-11
Python爬蟲
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
Python爬蟲實戰案例-爬取幣世界標紅快訊
2019-02-16
Python爬蟲
爬蟲教程——用Scrapy爬取豆瓣TOP250
2018-10-31
爬蟲
Python爬蟲爬取淘寶，京東商品資訊
2020-02-11
Python爬蟲
【python爬蟲案例】利用python爬取豆瓣電影TOP250評分排行資料！
2024-09-18
Python爬蟲
Python爬蟲之小說資訊爬取與資料視覺化分析
2021-01-09
Python爬蟲視覺化
Springboot+JPA下實現簡易爬蟲--爬取豆瓣電視劇資料
2020-10-15
Spring Boot爬蟲
爬蟲豆瓣美女
2018-11-28
爬蟲
06、豆瓣爬蟲
2019-04-11
爬蟲
python 爬蟲之獲取標題和連結
2020-11-27
Python爬蟲
Java爬蟲-爬取疫苗批次資訊
2024-06-03
Java爬蟲
Python爬蟲入門教程 50-100 Python3爬蟲爬取VIP視訊-Python爬蟲6操作
2019-02-14
Python爬蟲
【爬蟲】利用Python爬蟲爬取小麥苗itpub部落格的所有文章的連線地址（1）
2018-12-26
爬蟲Python
爬蟲學習筆記：練習爬取多頁天涯帖子
2019-02-16
爬蟲筆記
【個人記錄】零基礎python爬蟲練習——七行程式碼爬取豆瓣一週口碑榜
2019-04-01
Python爬蟲行程

python爬蟲練習之爬取豆瓣讀書所有標籤下的書籍資訊

第一步，爬取所有圖書標籤及分類

2.未完待續

相關文章