python自我學習 二 爬一個圖片網站上
前面的章節
本節章節 爬一個圖片網站上
爬蟲是啥
網路爬蟲是什麼?
看意思是一個蟲子,一個什麼蟲子?實際上指的是蜘蛛spider。
蜘蛛結成網,在網上爬來爬去的尋找墜入網路中的食物。
網路爬蟲就是差不多的意思,在網際網路上爬來爬去的尋找你的精神食物。
開始爬前的準備
要開始爬,你得先知道爬哪裡吧,你得先獲得網頁的原始碼即HTML資訊吧,獲得後,你需要分析出連結和圖片等資源吧。
要獲取HTML並分析網頁資訊,需要下載一個第三方的庫requesets,下載地址:
下載並解壓
最重要的是 這個庫有完善的中文資料 ,討厭蝌蚪文的可以放心的參考
你如果和我一樣使用pycharm來編輯,加入第三方庫的步驟如下:
安裝好requests第三方庫後,開始測試
開始獲取HTML
怎麼樣,驚喜不驚喜,簡單不簡單,使用其它語言,無法用這麼簡單的語句就獲得html的資訊。
解析HTML
使用request獲取了網頁原始碼,下一步就是如何解析了,你如果用過C++等語言,你會發現很難找到順心的網頁解析庫,但python在這方面卻很擅長。
還是用一個第三方庫 Beautiful Soup
這是個什麼庫呢?
直譯為:漂亮的湯?
難道是將網頁作為美味的湯,從這湯裡慢慢品味其中滋味,抽絲剝繭的分析湯的構成成分、湯的味道? 老外的思路,真難猜,先不管這個了。
說白了,就是用來解析HTML或XML,從中提取有用資料的庫。
而且也有強大的中文支援
首先分析,解析哪些連結
這應該是按類別來分的,我們在原始碼中找到這一項
之所以有亂碼,很可能是與我電腦沒有日文字型有關也可能編碼不正確,先不管它了,目前對解析無影響,可以看出,這些類別是放在class=menu的div下了,具體的就是這個DIV下的
1、好了,首先第一步,獲得這個DIV
這樣我們就獲得了這個DIV的內容,下面再繼續解析這個DIV
2、解析DIV
解析這個DIV,還要以這個DIV內容為引數,構造一個BeautifulSoup(以下簡稱為BS :) 注意絕不是鄙視的意思)物件,因為全篇只有一個menu 型別的DIV,所以所有型別都儲存在上面解析的div_menu[0]中了,將這個物件強制轉換為字串型別做BS的引數
看原始碼可以發現,連結都是站內連結
現在注意了,我要把所有的連結提取出來
輸出所有的連結
對應HTML原始碼
可以看到,第一個 a標籤,是沒有href屬性的,所以,會輸出None,其它a標籤,正常輸出
因為這些都是站內連結,
我們先定義一個變數,表示該站的域名
又因為,有的連結可能是none,所以需要判斷下是否存在href屬性,下面是輸出所有連結的程式碼
輸出的連結如下:
這樣,我們就正確的獲得了這些類別對應的網址了。
下一步工作,下一節再說,現在還有些事,改天聊
相關文章
- Python爬蟲學習(6): 爬取MM圖片Python爬蟲
- Python資料爬蟲學習筆記(11)爬取千圖網圖片資料Python爬蟲筆記
- Python爬蟲入門【7】: 蜂鳥網圖片爬取之二Python爬蟲
- Python爬蟲—爬取某網站圖片Python爬蟲網站
- Python爬蟲之網頁圖片Python爬蟲網頁
- 【python--爬蟲】千圖網高清背景圖片爬蟲Python爬蟲
- Python爬蟲入門【6】:蜂鳥網圖片爬取之一Python爬蟲
- Python 爬蟲入門 (二) 使用Requests來爬取圖片Python爬蟲
- Python爬蟲小專案:爬一個圖書網站Python爬蟲網站
- python爬蟲js逆向學習(二)Python爬蟲JS
- python爬蟲學習筆記(二)Python爬蟲筆記
- Python學習:爬個電影資源網站Python網站
- Python爬蟲之煎蛋網圖片下載Python爬蟲
- 爬蟲學習之一個簡單的網路爬蟲爬蟲
- python爬蟲---網頁爬蟲,圖片爬蟲,文章爬蟲,Python爬蟲爬取新聞網站新聞Python爬蟲網頁網站
- 一個事件驅動的圖片爬蟲事件爬蟲
- Python 爬蟲零基礎教程(1):爬單個圖片Python爬蟲
- node:爬蟲爬取網頁圖片爬蟲網頁
- Python應用開發——爬取網頁圖片Python網頁
- Facebook如何使用自我監督學習檢測仇恨文字和圖片?
- 爬蟲第二彈:千圖網電商淘寶模板圖片下載爬蟲
- 網路爬蟲---從千圖網爬取圖片到本地爬蟲
- Python爬蟲入門【4】:美空網未登入圖片爬取Python爬蟲
- Python爬蟲入門【8】: 蜂鳥網圖片爬取之三Python爬蟲
- Python網路爬蟲2 - 爬取新浪微博使用者圖片Python爬蟲
- Python爬去貼吧圖片Python
- 教你如何快速實現一個圖片爬蟲爬蟲
- 利用Python爬取攝影網站圖片,切勿商用Python網站
- 爬蟲怎麼根據一個關鍵詞爬取上千張網路圖片爬蟲
- Python3 大型網路爬蟲實戰 003 — scrapy 大型靜態圖片網站爬蟲專案實戰 — 實戰:爬取 169美女圖片網 高清圖片Python爬蟲網站
- Python學習筆記 - 下載圖片Python筆記
- 實戰:如何通過python requests庫寫一個抓取小網站圖片的小爬蟲Python網站爬蟲
- 圖片爬取實戰一
- 小白如何學習Python網路爬蟲?Python爬蟲
- 一個Python爬蟲工程師學習養成記Python爬蟲工程師
- Python爬蟲入門【5】:27270圖片爬取Python爬蟲
- dedecms搭建網站上傳的圖片帶水印,在哪裡關閉?網站
- Python爬蟲,網上的圖片素材通通免費哦,你學會了嗎?Python爬蟲