python初學-爬取網頁資料

玄元天發表於2015-12-31

python初學-爬取網頁資料

1,獲取網頁原始碼

import urllib
url = 'http://www.163.com'

wp = urllib.urlopen(url)
file_content = wp.read()

print file_content

2,將網頁內容存入檔案中

fp = open('163.txt', 'wb') #開啟一個文字檔案

fp.write(file_content) #寫入資料

fp.close() #關閉檔案

3,利用正規表示式快速的列印出網頁的標題跟連結地址

import re
fp = open('163.txt', 'rb')
content = fp.read()
fp.close()

title = re.search('<title>(.*?)</title>', content, re.S).group(1)

print 'title = ', title + '\n'

hrefPatten = 'href="(.*?)"'

hrefC = re.findall(hrefPatten, content, re.S)  #返回所有匹配正規表示式的值於列表中

print 'Allhref = ', hrefC

for h in hrefC :
    print h

只是示例程式碼,演示爬取簡單內容的簡單過程,程式不完善,謝謝閱讀,有不明白的可以回覆討論。

相關文章