非常這位老師的講解，根據老師的講解，初步弄懂了爬蟲的基本結構和各部分的具體功能，以及分析目標的思路和方法，這個太重要，再次感謝老師，跟老師的影片我敲程式碼實現了這個人生中第一個Python爬蟲，確實非常有意思，再次感謝老師，
根據自己的測試，有3個地方需要調整整之後才可以順利執行
1、詞條頁面URL: /item/%E8%AE
原先是/view/41122.htm這種格式，但是百度百度百科已經升級了，原先的無法使用，對應的程式碼修改為：
links = soup.find_all('a',href=re.compile(r'/item/.*'))

2、獲取title的方式有調整
res_data['title'] = title_node.find('h1').get_text()
這樣就得到的資料是乾淨的標題，否則抓取到的資料後面會有“編輯”“收藏”這倆詞

3、輸出時不需要轉utf-8編碼
HtmlOutputer類的output_html()方法裡面，輸出html檔案時增加
fout.write("

n")

《Python開發簡單爬蟲》實踐筆記

相關文章