Python 基礎學習 網路小爬蟲

浙商大機器學習實驗室-涼水煮茶發表於2014-07-03
<span style="font-size:18px;">#
# 百度貼吧圖片網路小爬蟲
#


import re
import urllib
 
def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html
 
def getImg(html):
    reg = r'src="(.+?\.jpg)" pic_ext'
    imgre = re.compile(reg)
    imglist = imgre.findall(html)
    x = 0
    l=len(imglist)
    print "總共有%d張圖片"%(l)
    print "-------------------"
    for imgurl in imglist:
        print "第%d張圖片" %(x+1)
        urllib.urlretrieve(imgurl,'E:\\Pythoncode\\picture\\%s.jpg' % x)
        x = x + 1       
    
html = getHtml("http://tieba.baidu.com/p/3093487131")
getImg(html)</span>
</pre><pre code_snippet_id="415913" snippet_file_name="blog_20140703_4_8970806" name="code" class="python">總共有38張圖片
-------------------
第1張圖片
第2張圖片
第3張圖片
第4張圖片
第5張圖片
第6張圖片
第7張圖片
第8張圖片
第9張圖片
第10張圖片
第11張圖片
第12張圖片
第13張圖片
第14張圖片
第15張圖片
第16張圖片
第17張圖片
第18張圖片
第19張圖片
第20張圖片
第21張圖片
第22張圖片
第23張圖片
第24張圖片
第25張圖片
第26張圖片
第27張圖片
第28張圖片
第29張圖片
第30張圖片
第31張圖片
第32張圖片
第33張圖片
第34張圖片
第35張圖片
第36張圖片
第37張圖片
第38張圖片



相關文章