Day1--豆瓣圖書爬蟲

Sakauz發表於2019-03-21

原文網址 : https://juejin.im/post/5c93a7756fb9a070a804d49d

照著豆瓣讀書練手爬蟲自己跟著寫了一個簡單爬蟲

轉頁的實現

觀察不同頁的url規律，如豆瓣圖書的url頁數資訊是最後的start=後面的數字，每一頁加25，所以以book.douban.com/top250?star… 為基層URL每一頁在後面加頁面的頁數數字。就可以得到所有的頁面 url 了。再以for迴圈迭代每一個 url，使用上面獲取資料的方法，獲得所有的資料資訊。獲取所有頁面URL的程式碼如下：

urllist = []
# 從0到225，間隔25的陣列
for page in range(0, 250, 25):
    allurl = base_url + str(page)
    urllist.append(allurl)
複製程式碼

writelines()函式

file.write(str)的引數是一個字串，就是你要寫入檔案的內容.

#write()的用法

with open() as f:

f.write(line)
複製程式碼

file.writelines(sequence)的引數是序列，比如列表，它會迭代幫你寫入檔案

writelines()

with open() as wf:

wf.writelines([line_list])
複製程式碼

本次爬蟲的程式碼中在for語句用到此函式

for name, author, score, sum in zip(names, authors, scores, sums):
           ........
           f.writelines(data + '=======================' + '\n')
複製程式碼

注意：writelines必須傳入的是字元序列,不能是數字序列

如：list_1023 = [1,2,3,4,5]

zip()函式

zip()函式的定義 ：從引數中的多個迭代器取元素組合成一個新的迭代器；

返回：

返回一個zip物件，其內部元素為元組；可以轉化為列表或元組；

傳入引數： 元組、列表、字典等迭代器。

zip()函式的用法

## zip()函式有2個引數
m = [[1, 2, 3],  [4, 5, 6],  [7, 8, 9]]
n = [[2, 2, 2],  [3, 3, 3],  [4, 4, 4]]
p = [[2, 2, 2],  [3, 3, 3]]
# 行與列相同
print("行與列相同:\n", list(zip(m, n)))
# 行與列不同
print("行與列不同:\n", list(zip(m, p)))
複製程式碼

輸出

行與列相同:
[([1, 2, 3], [2, 2, 2]), ([4, 5, 6], [3, 3, 3]), ([7, 8, 9], [4, 4, 4])]
行與列不同:
[([1, 2, 3], [2, 2, 2]), ([4, 5, 6], [3, 3, 3])]
複製程式碼

當zip()函式中只有一個引數時

zip(iterable)從iterable中依次取一個元組，組成一個元組。

示例

## zip()函式單個引數
list1 = [1, 2, 3, 4]
tuple1 = zip(list1)
# 列印zip函式的返回型別
print("zip()函式的返回型別：\n", type(tuple1))
# 將zip物件轉化為列表
print("zip物件轉化為列表：\n", list(tuple1))
複製程式碼

輸出

zip()函式的返回型別：
<class 'zip'>
zip物件轉化為列表：
[(1,), (2,), (3,), (4,)]
複製程式碼

關於BeautifulSoupd的一些知識點

先利用BeautifulSoup來獲得一個物件，按找標準的縮排顯示的html程式碼：

from bs4 import BeautifulSoup
 
soup = BeautifulSoup(resp.text, 'lxml')
複製程式碼

提取標籤內容

list = [<a href="http://www.baidu.com/">百度</a>,
 
<a href="http://www.163.com/">網易</a>,
 
<a href="http://www.sina.com/"新浪</a>]
複製程式碼

提取它裡面的內容如下

for i in list:
    print(i.get_text()) # 我們使用get_text()方法獲得標籤內容
    print(i.get['href'] # get['attrs']方法獲得標籤屬性
    print(i['href']) # 簡寫結果一樣
複製程式碼

輸出結果

百度
網易
新浪
http://www.baidu.com/
http://www.163.com/
http://www.sina.com/
http://www.baidu.com/
http://www.163.com/
http://www.sina.com/
複製程式碼

即get_text()方法獲取標籤文字內容，get[attrs]方法獲取標籤屬性值。

Keyword引數

如果我們的 HTML程式碼中有幾個div標籤，但是我們只想獲取到class屬性為top的div標籤，我們怎麼出來呢。

soup.find_all('div', class_='top')
# 這裡注意下，class是Python的內部關鍵詞，我們需要在css屬性class後面加一個下劃線'_'，不然會報錯。
複製程式碼

其它

1.若寫入中文文字應用utf-8編碼

f = open(filename, 'w', encoding='utf-8')

2.得到一個書名的列表

alldiv = soup.find_all('div', class_='pl2')
names = [a.find('a')['title'] for a in alldiv]
print(names)
複製程式碼

爬蟲豆瓣美女
2018-11-28
爬蟲
06、豆瓣爬蟲
2019-04-11
爬蟲
python爬蟲練習之爬取豆瓣讀書所有標籤下的書籍資訊
2018-07-23
Python爬蟲
爬蟲教程——用Scrapy爬取豆瓣TOP250
2018-10-31
爬蟲
16 JSON 爬蟲【反序列化】豆瓣
2024-09-28
JSON爬蟲
java爬取豆瓣書籍資訊
2019-01-03
Java
爬蟲01:爬取豆瓣電影TOP 250基本資訊
2020-12-29
爬蟲
豆瓣預告片爬蟲以及管理後臺
2018-04-27
爬蟲
【python爬蟲案例】利用python爬取豆瓣讀書評分TOP250排行資料
2024-09-20
Python爬蟲
Python爬蟲小專案：爬一個圖書網站
2018-11-21
Python爬蟲網站
Python爬蟲筆記（4）：利用scrapy爬取豆瓣電影250
2018-11-10
Python爬蟲筆記
Python爬蟲教程-17-ajax爬取例項（豆瓣電影）
2018-09-06
Python爬蟲
python爬蟲爬取豆瓣電影 1-10 ajax 資料
2024-07-04
Python爬蟲
專案之爬蟲入門（豆瓣TOP250）
2020-11-19
爬蟲
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
爬蟲 Scrapy框架爬取圖蟲圖片並下載
2018-08-27
爬蟲框架
【python--爬蟲】千圖網高清背景圖片爬蟲
2019-05-21
Python爬蟲
50行爬蟲?️抓取並處理圖靈書目
2019-02-25
爬蟲圖靈
【python--爬蟲】彼岸圖網高清桌布爬蟲
2019-07-21
Python爬蟲
python爬蟲實踐: 豆瓣小組命令列客戶端
2019-02-16
Python爬蟲命令列客戶端
Java爬蟲批量爬取圖片
2021-09-24
Java爬蟲
Python爬蟲教程+書籍分享
2018-11-29
Python爬蟲
【Python】從0開始寫爬蟲——轉身扒豆瓣電影
2018-08-16
Python爬蟲
用python寫一個豆瓣短評通用爬蟲(登入、爬取、視覺化)
2020-10-24
Python爬蟲視覺化
Springboot+JPA下實現簡易爬蟲--爬取豆瓣電視劇資料
2020-10-15
Spring Boot爬蟲
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
node：爬蟲爬取網頁圖片
2019-02-16
爬蟲網頁
爬蟲---xpath解析（爬取美女圖片）
2020-12-23
爬蟲
【python爬蟲案例】利用python爬取豆瓣電影TOP250評分排行資料！
2024-09-18
Python爬蟲
豆瓣電影TOP250爬蟲及視覺化分析筆記
2021-11-09
爬蟲視覺化筆記
手把手教你網路爬蟲（爬取豆瓣電影top250，附帶原始碼）
2023-03-04
爬蟲原始碼
python爬蟲學習01--電子書爬取
2020-07-13
Python爬蟲
Python爬蟲—爬取某網站圖片
2020-11-19
Python爬蟲網站
Python爬蟲入門【9】：圖蟲網多執行緒爬取
2019-07-31
Python爬蟲執行緒
2019最新Python爬蟲教程+書籍分享
2019-01-06
Python爬蟲
爬蟲：多程式爬蟲
2021-05-19
爬蟲
Python爬蟲入門【5】：27270圖片爬取
2019-07-30
Python爬蟲
網路爬蟲---從千圖網爬取圖片到本地
2019-09-03
爬蟲

Day1--豆瓣圖書爬蟲

相關文章