python爬取不到資料的可能原因之一

小C部落格發表於2018-11-20

自學Python爬蟲,感覺自己的程式碼沒有什麼問題,但是輸出卻沒有結果,一開始陷入了沉思,偶然想起,很多網站為了反爬蟲,對於沒有“頭”的爬蟲,網站會拒絕請求。於是,抱著試一試的態度,新增了爬蟲的“頭”,結果能夠正常顯示。

這裡我是在嘗試抓取“瞬眼天下”網頁的小標題,程式碼如下:

#爬取順眼天下網頁一頁的標題
import requests
from bs4 import BeautifulSoup

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'}

resp=requests.get('http://www.tmtpost.com/nictation/1',headers=headers)
soup=BeautifulSoup(resp.text,'lxml')

alla=soup.find_all('h2',class_='w_tit')
for a in alla:
    t=a.find('a')
    print(t.get_text())

我一開始的程式碼是這樣的:

#爬取瞬眼天下網頁一頁的標題
import requests
from bs4 import BeautifulSoup

resp=requests.get('http://www.tmtpost.com/nictation/1')
soup=BeautifulSoup(resp.text,'lxml')

alla=soup.find_all('h2',class_='w_tit')
for a in alla:
    t=a.find('a')
    print(t.get_text())

即,缺少了headers的相關資訊

相關文章