python自我學習二爬一個圖片網站上

weixin_34365417發表於2017-12-27

Python網站

前面的章節

Python安裝

python自我學習一 python語法，及變數型別

本節章節爬一個圖片網站上

爬蟲是啥

網路爬蟲是什麼？

看意思是一個蟲子，一個什麼蟲子？實際上指的是蜘蛛spider。

蜘蛛結成網，在網上爬來爬去的尋找墜入網路中的食物。

網路爬蟲就是差不多的意思，在網際網路上爬來爬去的尋找你的精神食物。

開始爬前的準備

要開始爬，你得先知道爬哪裡吧，你得先獲得網頁的原始碼即HTML資訊吧，獲得後，你需要分析出連結和圖片等資源吧。

要獲取HTML並分析網頁資訊，需要下載一個第三方的庫requesets，下載地址：

下載並解壓

最重要的是這個庫有完善的中文資料，討厭蝌蚪文的可以放心的參考

你如果和我一樣使用pycharm來編輯，加入第三方庫的步驟如下：

安裝好requests第三方庫後，開始測試

開始獲取HTML

怎麼樣，驚喜不驚喜，簡單不簡單，使用其它語言，無法用這麼簡單的語句就獲得html的資訊。

解析HTML

使用request獲取了網頁原始碼，下一步就是如何解析了，你如果用過C++等語言，你會發現很難找到順心的網頁解析庫，但python在這方面卻很擅長。

還是用一個第三方庫 Beautiful Soup

這是個什麼庫呢？

直譯為：漂亮的湯？

難道是將網頁作為美味的湯，從這湯裡慢慢品味其中滋味，抽絲剝繭的分析湯的構成成分、湯的味道？老外的思路，真難猜，先不管這個了。

說白了，就是用來解析HTML或XML，從中提取有用資料的庫。

而且也有強大的中文支援

首先分析，解析哪些連結

這應該是按類別來分的，我們在原始碼中找到這一項

之所以有亂碼，很可能是與我電腦沒有日文字型有關也可能編碼不正確，先不管它了，目前對解析無影響，可以看出，這些類別是放在class=menu的div下了，具體的就是這個DIV下的

1、好了，首先第一步，獲得這個DIV

這樣我們就獲得了這個DIV的內容，下面再繼續解析這個DIV

2、解析DIV

解析這個DIV，還要以這個DIV內容為引數，構造一個BeautifulSoup（以下簡稱為BS ：）注意絕不是鄙視的意思）物件,因為全篇只有一個menu 型別的DIV，所以所有型別都儲存在上面解析的div_menu[0]中了，將這個物件強制轉換為字串型別做BS的引數

看原始碼可以發現，連結都是站內連結

現在注意了，我要把所有的連結提取出來

輸出所有的連結

對應HTML原始碼

可以看到，第一個 a標籤，是沒有href屬性的，所以，會輸出None,其它a標籤，正常輸出

因為這些都是站內連結，

我們先定義一個變數，表示該站的域名

又因為，有的連結可能是none，所以需要判斷下是否存在href屬性，下面是輸出所有連結的程式碼

輸出的連結如下：

這樣，我們就正確的獲得了這些類別對應的網址了。

下一步工作，下一節再說，現在還有些事，改天聊

Python爬蟲學習（6）: 爬取MM圖片
2016-10-21
Python爬蟲
Python資料爬蟲學習筆記（11）爬取千圖網圖片資料
2018-09-18
Python爬蟲筆記
Python爬蟲入門【7】：蜂鳥網圖片爬取之二
2019-07-31
Python爬蟲
Python爬蟲—爬取某網站圖片
2020-11-19
Python爬蟲網站
Python爬蟲之網頁圖片
2016-09-05
Python爬蟲網頁
【python--爬蟲】千圖網高清背景圖片爬蟲
2019-05-21
Python爬蟲
Python爬蟲入門【6】：蜂鳥網圖片爬取之一
2019-07-30
Python爬蟲
Python 爬蟲入門 (二) 使用Requests來爬取圖片
2017-02-24
Python爬蟲
Python爬蟲小專案：爬一個圖書網站
2018-11-21
Python爬蟲網站
python爬蟲js逆向學習（二）
2020-07-03
Python爬蟲JS
python爬蟲學習筆記（二）
2020-11-24
Python爬蟲筆記
Python學習：爬個電影資源網站
2018-03-16
Python網站
Python爬蟲之煎蛋網圖片下載
2017-02-08
Python爬蟲
爬蟲學習之一個簡單的網路爬蟲
2016-07-11
爬蟲
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
一個事件驅動的圖片爬蟲
2017-12-14
事件爬蟲
Python 爬蟲零基礎教程(1)：爬單個圖片
2024-03-13
Python爬蟲
node：爬蟲爬取網頁圖片
2019-02-16
爬蟲網頁
Python應用開發——爬取網頁圖片
2022-09-21
Python網頁
Facebook如何使用自我監督學習檢測仇恨文字和圖片？
2021-03-12
爬蟲第二彈：千圖網電商淘寶模板圖片下載
2018-06-14
爬蟲
網路爬蟲---從千圖網爬取圖片到本地
2019-09-03
爬蟲
Python爬蟲入門【4】：美空網未登入圖片爬取
2019-07-30
Python爬蟲
Python爬蟲入門【8】：蜂鳥網圖片爬取之三
2019-07-31
Python爬蟲
Python網路爬蟲2 - 爬取新浪微博使用者圖片
2018-04-10
Python爬蟲
Python爬去貼吧圖片
2018-01-09
Python
教你如何快速實現一個圖片爬蟲
2017-09-22
爬蟲
利用Python爬取攝影網站圖片，切勿商用
2018-12-18
Python網站
爬蟲怎麼根據一個關鍵詞爬取上千張網路圖片
2018-01-25
爬蟲
Python3 大型網路爬蟲實戰 003 — scrapy 大型靜態圖片網站爬蟲專案實戰 — 實戰：爬取 169美女圖片網高清圖片
2016-12-26
Python爬蟲網站
Python學習筆記 - 下載圖片
2019-01-19
Python筆記
實戰：如何通過python requests庫寫一個抓取小網站圖片的小爬蟲
2020-01-25
Python網站爬蟲
圖片爬取實戰一
2017-06-14
小白如何學習Python網路爬蟲？
2018-01-08
Python爬蟲
一個Python爬蟲工程師學習養成記
2020-06-29
Python爬蟲工程師
Python爬蟲入門【5】：27270圖片爬取
2019-07-30
Python爬蟲
dedecms搭建網站上傳的圖片帶水印，在哪裡關閉？
2024-07-10
網站
Python爬蟲，網上的圖片素材通通免費哦，你學會了嗎？
2020-12-12
Python爬蟲

python自我學習 二 爬一個圖片網站上

相關文章

python自我學習二爬一個圖片網站上