Python爬蟲群作業-Week3-BeautifulSoup

weixin_33830216發表於2017-05-07

經過不太努力的嘗試,今天把BeautifulSoup的爬蟲也做出來了。
上面是向右老師的糗事百科示例:

import requests
from bs4 import BeautifulSoup

html = requests.get('http://www.qiushibaike.com/text/').content
soup = BeautifulSoup(html,'lxml')
links = soup.select('a.contentHerf > div > span')

for link in links:
    print link.get_text()

下面是我爬的煎蛋網的段子。

import requests
from bs4 import BeautifulSoup

html = requests.get('http://jandan.net/duan/').content

soup = BeautifulSoup(html,'lxml')
links = soup.find_all('div',class_="text")

for link in links:
    print link.p.get_text()

因為這兒的段子是用< p>分隔的,所以主要在最後一行列印的p.get_text()

3775878-ed0eaaa1e472c373.png
圖片.png

小結一:感覺BS的比XPath的好用一些;
小結二:還是要熟悉網頁結構,避免徒勞的排列組合嘗試。要好好的把html再學習一下。
<blockquote>下週計劃:1. 學習html
2.繼續看書和視訊
3.把向右老師的三篇文章繼續好好理解,爭取獨立自主的爬個網頁
4.如果還有餘力,爭取學會把資料寫入excel表。</blockquote>

然後就差不多大功告成了吧~

相關文章