《Python開發簡單爬蟲》實踐筆記

karspb發表於2021-09-09

非常 這位老師的講解,根據老師的講解,初步弄懂了爬蟲的基本結構和各部分的具體功能,以及分析目標的思路和方法,這個太重要,再次感謝老師,跟老師的影片我敲程式碼實現了這個人生中第一個Python爬蟲,確實非常有意思,再次感謝老師,
根據自己的測試,有3個地方需要調整整之後才可以順利執行
1、詞條頁面URL: /item/%E8%AE
原先是/view/41122.htm這種格式,但是百度百度百科已經升級了,原先的無法使用,對應的程式碼修改為:
links = soup.find_all('a',href=re.compile(r'/item/.*'))

2、獲取title的方式有調整
res_data['title'] = title_node.find('h1').get_text()
這樣就得到的資料是乾淨的標題,否則抓取到的資料後面會有“編輯”“收藏”這倆詞

3、輸出時不需要轉utf-8編碼
HtmlOutputer類的output_html()方法裡面,輸出html檔案時增加
fout.write("

n")

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/2001/viewspace-2808191/,如需轉載,請註明出處,否則將追究法律責任。

相關文章