Python學習(2)

weixin_34127717發表於2017-11-07

爬取網頁的部分連結

#!/usr/bin/python
#coding = utf8
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
import random
pages = set()
def getlink(pageurl):
    global pages
    html = urlopen('http://www.ftchinese.com' + pageurl)
    bs_data = BeautifulSoup(html,'lxml')
#from ipdb import set_trace
#set_trace()
    for link in bs_data.find_all('a',href = re.compile("^(/m/)")):
        if 'href' in link.attrs:
            if link.attrs['href'] not in pages:
            #我們遇到了新頁面
                newpage = link.attrs['href']
                print(newpage)
                pages.add(newpage)
                getlink(newpage)
getlink("")

1
<br>










本文轉自 妙曼  51CTO部落格,原文連結:http://blog.51cto.com/yanruohan/1913551,如需轉載請自行聯絡原作者

相關文章