新手爬蟲教程：Python爬取知乎文章中的圖片

嗨學程式設計發表於2019-01-17

原文網址 : https://juejin.im/post/5c3ff17251882525616dcd71

前言

知乎，與世界分享你剛編好的故事.......

今天我們們就爬取一下知乎文章上面的圖片，突然發現知乎上面的小姐姐圖片還是挺好看的

基本環境配置

版本：Python3

系統：Windows

相關模組：requests

儲存：MongoDB

本人對於Python學習建立了一個小小的學習圈子，為各位提供了一個平臺，大家一起來討論學習Python。歡迎各位到來Python學習群：960410445一起討論視訊分享學習。Python是未來的發展方向，正在挑戰我們的分析能力及對世界的認知方式，因此，我們與時俱進，迎接變化，並不斷的成長，掌握Python核心技術，才是掌握真正的價值所在。

關於pymongo的一些操作

新手爬蟲教程：Python爬取知乎文章中的圖片

匯入pymongo，使用MongClient連線資料庫，連線到myinfo資料庫

新手爬蟲教程：Python爬取知乎文章中的圖片

insert，insert_one()只能插入一條資料，插入多條資料的格式是db.user.insert([{條數1},{條數2}])，一定要加[]，否則只會新增進去第一條（user是一個集合，除了用db["collection"]外也可以用db.collection來對集合進行操作

新手爬蟲教程：Python爬取知乎文章中的圖片

update,$set:更新操作，multi=True：是否對查詢到的全部資料進行操作，upsert=True：如果找不到查詢的結果是否插入一條資料

db.user.update_one({"age":"2"},{"$set":{"name":"qian","age":2}})
db.user.update({"name":"sun"},{"$set":{"name":"qian"}},upsert=True)
複製程式碼

update_one也是隻能對一條資料進行操作，$set是update操作的$操作符，也可以用$inc或$push，前兩個操作速度差不多，$push操作速度較慢。

列印出查詢結果

from bson import json_util as jsonb
print(jsonb.dumps(list(db.user.find({"name":"wu"}))))
print(db.user.find({"name":"wu"}))
可以看到上面兩種方式，不轉換與轉換後的結果對比如下：
複製程式碼

新手爬蟲教程：Python爬取知乎文章中的圖片

*jsonb.dumps()將查詢出來的結果轉換成了可以讀的list的格式，否則列印出來的是<pymongo.cursor.Cursor object at 0x02096DF0>這種格式的
遍歷col1=db.user.find()查詢到的所有結果，以及它key=name的value
for i in col1:
 print(i)
 print(i["name"])
複製程式碼

知乎文章圖片選取操作庫和爬取地址

新手爬蟲教程：Python爬取知乎文章中的圖片

爬取使用requests 儲存使用 mongodb 就可以了

爬取地址經過分析之後，找到了一個可以返回json的資料介面

新手爬蟲教程：Python爬取知乎文章中的圖片

提取連結，方便我們程式模擬，連線進行了URL編碼，去找個解碼工具解析一下，程式設計下面的URL就比較好解釋了，answers後面跟了一堆的引數，應該是返回的關鍵字，找到limit每頁顯示的資料量，offset偏移量，我們下拉滾動條，發現這個在不斷的疊加+5，sort_by 就是排序。

做好上面的工作，接下來就是爬取了，我簡化了一下爬取的地址，只保留了一些關鍵的資訊

知乎文章圖片程式碼

新手爬蟲教程：Python爬取知乎文章中的圖片

執行結果為

新手爬蟲教程：Python爬取知乎文章中的圖片

相關文章

Python爬蟲新手教程：知乎文章圖片爬取器
2019-07-20
Python爬蟲
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
python爬蟲專案（新手教程）之知乎（requests方式）
2018-06-13
Python爬蟲
python爬蟲如何爬知乎的話題？
2019-02-16
Python爬蟲
Python爬蟲—爬取某網站圖片
2020-11-19
Python爬蟲網站
[Python]爬蟲獲取知乎某個問題下所有圖片並去除水印
2021-09-20
Python爬蟲
Python爬蟲入門【5】：27270圖片爬取
2019-07-30
Python爬蟲
Java爬蟲批量爬取圖片
2021-09-24
Java爬蟲
Python 爬蟲 + 人臉檢測 —— 知乎高顏值圖片抓取
2020-12-21
Python爬蟲
python 爬蟲爬取 learnku 精華文章
2020-04-17
Python爬蟲
Python爬蟲實戰詳解：爬取圖片之家
2020-11-04
Python爬蟲
node：爬蟲爬取網頁圖片
2019-02-16
爬蟲網頁
爬蟲---xpath解析（爬取美女圖片）
2020-12-23
爬蟲
Python爬蟲遞迴呼叫爬取動漫美女圖片
2020-10-19
Python爬蟲遞迴
爬蟲 Scrapy框架爬取圖蟲圖片並下載
2018-08-27
爬蟲框架
【python--爬蟲】千圖網高清背景圖片爬蟲
2019-05-21
Python爬蟲
分散式爬蟲之知乎使用者資訊爬取
2018-08-31
分散式爬蟲
Python 爬蟲零基礎教程(1)：爬單個圖片
2024-03-13
Python爬蟲
Python爬蟲入門教程 4-100 美空網未登入圖片爬取
2018-12-17
Python爬蟲
Python網路爬蟲實戰：爬取知乎話題下 18934 條回答資料
2019-01-17
Python爬蟲
python 爬蟲之requests爬取頁面圖片的url，並將圖片下載到本地
2019-06-12
Python爬蟲
Python爬蟲入門教程 50-100 Python3爬蟲爬取VIP視訊-Python爬蟲6操作
2019-02-14
Python爬蟲
Python爬蟲入門教程 2-100 妹子圖網站爬取
2018-12-13
Python爬蟲網站
Python網路爬蟲2 - 爬取新浪微博使用者圖片
2018-04-10
Python爬蟲
Python爬蟲入門【4】：美空網未登入圖片爬取
2019-07-30
Python爬蟲
爬蟲Selenium+PhantomJS爬取動態網站圖片資訊（Python）
2018-03-24
爬蟲JS網站Python
網路爬蟲---從千圖網爬取圖片到本地
2019-09-03
爬蟲
【爬蟲】利用Python爬蟲爬取小麥苗itpub部落格的所有文章的連線地址（1）
2018-12-26
爬蟲Python
Python資料爬蟲學習筆記（11）爬取千圖網圖片資料
2018-09-18
Python爬蟲筆記
簡單的爬蟲：爬取網站內容正文與圖片
2021-09-09
爬蟲網站
【爬蟲】利用Python爬蟲爬取小麥苗itpub部落格的所有文章的連線地址並寫入Excel中（2）
2018-12-27
爬蟲PythonExcel
Python爬蟲入門教程 8-100 蜂鳥網圖片爬取之三
2018-12-20
Python爬蟲
Python爬蟲教程-01-爬蟲介紹
2018-09-06
Python爬蟲
Python爬蟲入門【9】：圖蟲網多執行緒爬取
2019-07-31
Python爬蟲執行緒
Python爬蟲教程-13-爬蟲使用cookie爬取登入後的頁面(人人網)（下）
2018-09-06
Python爬蟲Cookie
Python爬蟲教程-12-爬蟲使用cookie爬取登入後的頁面(人人網)（上）
2018-09-06
Python爬蟲Cookie
Python爬蟲抓取知乎所有使用者資訊
2018-03-14
Python爬蟲
Python爬蟲入門【11】：半次元COS圖爬取
2019-07-31
Python爬蟲