1號小爬蟲:普通的爬蟲,下載百度桌布
更多爬蟲請見:我的爬蟲史
程式碼說明:
曾經模仿實現過下載淘寶MM圖片的爬蟲,現在重新拾起爬蟲,也是先從下載圖片開始。本爬蟲用來下載百度桌布(傳送門)。
1號小爬蟲主要包括兩個步驟:第一步用urllib2.urlopen()和read()方法獲取網頁原始碼,第二步用正規表示式獲取圖片的url,並用urllib.urlretrieve()方法下載到本地。
主要的難點應該就在正規表示式的編寫了,還有一個知識點就是:在儲存圖片的時候,命名的同時可以指定絕對路徑。
原始碼:
#encoding=utf-8
import urllib
import urllib2
import re
class Ordinary_spider(object):
""" 普通的爬蟲 ,功能:下載筆記本桌布圖片 """
def __init__(self, url):
self.url = url;
self.myDownload(self.url)
def getHtml(self, url):
""" 獲取網頁原始碼 """
page = urllib2.urlopen(url)
html = page.read()
return html
def getImg(self, html):
""" 從原始碼中獲取圖片的url,再根據這個url下載圖片 """
i = 1
reg = "\"objURL\":\"(http://.*)\""
regg = re.compile(reg)
urllist = regg.findall(html) ## 獲取圖片的url,結果返回一個列表
for url in urllist: ## 下載圖片
fname = 'G:\\Temp\\IMG_download\\%d.jpg'%i ## 圖片的名字,指定絕對路徑
urllib.urlretrieve(url, fname)
print "第 %d 張Finish:"%i,url
i += 1
def myDownload(self, url):
html = self.getHtml(url)
self.getImg(html)
print "下載完成!"
轉載請註明出處,謝謝!(原文連結:http://blog.csdn.net/bone_ace/article/details/50207535)
相關文章
- 【python--爬蟲】彼岸圖網高清桌布爬蟲Python爬蟲
- 如何用python爬蟲下載小說?Python爬蟲
- 【Python學習】爬蟲爬蟲爬蟲爬蟲~Python爬蟲
- 爬蟲 Scrapy框架 爬取圖蟲圖片並下載爬蟲框架
- python 爬蟲 下載百度美女圖片Python爬蟲
- Python爬蟲(1.爬蟲的基本概念)Python爬蟲
- 爬蟲的小技巧之–如何尋找爬蟲入口爬蟲
- 中小學教材下載爬蟲爬蟲
- 【1】爬蟲概述爬蟲
- 【爬蟲】利用Python爬蟲爬取小麥苗itpub部落格的所有文章的連線地址(1)爬蟲Python
- 爬蟲:多程式爬蟲爬蟲
- python爬蟲---網頁爬蟲,圖片爬蟲,文章爬蟲,Python爬蟲爬取新聞網站新聞Python爬蟲網頁網站
- 爬蟲之普通的模擬登陸爬蟲
- 爬蟲(1) - 爬蟲基礎入門理論篇爬蟲
- Go 爬蟲小例Go爬蟲
- 爬蟲小專案爬蟲
- 3.26爬蟲小記爬蟲
- 3.22 爬蟲小記爬蟲
- 爬蟲爬取微信小程式爬蟲微信小程式
- 通用爬蟲與聚焦爬蟲爬蟲
- 爬蟲--Scrapy簡易爬蟲爬蟲
- 爬蟲百戰穿山甲(2):百度翻譯爬蟲爬蟲
- Python爬蟲——批次爬取douyin影片,下載到本地Python爬蟲
- 爬蟲基礎---1爬蟲
- 爬蟲(14) - Scrapy-Redis分散式爬蟲(1) | 詳解爬蟲Redis分散式
- python網路爬蟲_Python爬蟲:30個小時搞定Python網路爬蟲視訊教程Python爬蟲
- 反爬蟲之字型反爬蟲爬蟲
- 爬蟲進階:反反爬蟲技巧爬蟲
- Java爬蟲與Python爬蟲的區別?Java爬蟲Python
- Python爬蟲教程-05-python爬蟲實現百度翻譯Python爬蟲
- Python爬蟲教程-06-爬蟲實現百度翻譯(requests)Python爬蟲
- GB標準文件爬蟲下載程式爬蟲
- 3.24 爬蟲小週記爬蟲
- 3.21日 爬蟲小計爬蟲
- Python爬蟲小結(轉)Python爬蟲
- 爬蟲爬蟲
- 爬蟲(9) - Scrapy框架(1) | Scrapy 非同步網路爬蟲框架爬蟲框架非同步
- Windows下安裝配置爬蟲工具Scrapy及爬蟲環境Windows爬蟲
- 網路爬蟲——爬蟲實戰(一)爬蟲