Python學習(2)
爬取網頁的部分連結
#!/usr/bin/python
#coding = utf8
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
import random
pages = set()
def getlink(pageurl):
global pages
html = urlopen('http://www.ftchinese.com' + pageurl)
bs_data = BeautifulSoup(html,'lxml')
#from ipdb import set_trace
#set_trace()
for link in bs_data.find_all('a',href = re.compile("^(/m/)")):
if 'href' in link.attrs:
if link.attrs['href'] not in pages:
#我們遇到了新頁面
newpage = link.attrs['href']
print(newpage)
pages.add(newpage)
getlink(newpage)
getlink("")
1
|
<br>
|
本文轉自 妙曼 51CTO部落格,原文連結:http://blog.51cto.com/yanruohan/1913551,如需轉載請自行聯絡原作者
相關文章
- python學習2Python
- python基礎學習2Python
- Python學習筆記(2)Python筆記
- python學習day2Python
- Python Web 開發學習 - 學習筆記(2)- 啟動PythonPythonWeb筆記
- Python爬蟲學習(2): httplibPython爬蟲HTTP
- python爬蟲—學習筆記-2Python爬蟲筆記
- python基礎學習day2Python
- Python學習之路2-列表介紹Python
- Python演算法學習2-序列Python演算法
- 初學者學習python2還是python3?Python
- Python 學習筆記-2-1-變數Python筆記變數
- Python學習之專用英語篇(2)Python
- Python的學習(十一)----異常處理(2)Python
- 學習python多久?該如何學習python?Python
- 學習Python選擇Python2還是Python3呢?Python
- 跨行業如何學習好python?Python學習!行業Python
- 如何高效的學習python?python學習技巧Python
- Python如何快速學習?Python學習方法技巧!Python
- Python入門之web2py框架學習!PythonWeb框架
- Python學習筆記2:基本資料型別Python筆記資料型別
- Python爬蟲學習筆記-2.Requests庫Python爬蟲筆記
- Opencv3 python學習2——視訊基礎OpenCVPython
- PYTHON 學習Python
- 學習pythonPython
- python學習Python
- Docker學習2Docker
- flask學習2Flask
- Qt學習2QT
- CGAL——學習2
- 棧學習(2)
- php學習(2)PHP
- 學習perl(2)
- HTML學習-2HTML
- css學習2CSS
- odoo學習-2Odoo
- 【Python機器學習實戰】決策樹與整合學習(四)——整合學習(2)GBDTPython機器學習
- Python2和Python3的區別?Python入門學習Python