前言
昨天開了一個新的坑,現在想一步一步將learnku
全站給爬下來,目前想要實現的功能:1.可以出現新文章提醒,各類訊息提醒。2.各大版塊的新文章收錄,先將文章收錄起來,然後完成篩選後推送給我3.每天更新個人相關資料,及時推送。後續還可能會加入新的功能,在此出一個系列文章,分享我完成這個專案的整個過程。
昨天寫了一個爬蟲完成了對我的部落格
頁面個人相關資料的爬蟲,今天計劃完成個人所有文章的爬蟲
程式碼如下:
...
title_list = result.xpath('//div [@class = "event"]//div [@class = "summary"]/a/text()')
post_url_list = result.xpath('//div [@class = "event"]//div [@class = "summary"]/a/@href')
page_num = len(result.xpath('//ul [@class = "pagination"]/li')) - 1
for i in range(2, page_num):
next_url = 'https://learnku.com/blog/SilenceHL?page={}'.format(i)
response = requests.get(url).content.decode()
title_list.extend(result.xpath('//div [@class = "event"]//div [@class = "summary"]/a/text()'))
post_url_list.extend(result.xpath('//div [@class = "event"]//div [@class = "summary"]/a/@href'))
for i in range(len(title_list)):
print('博文標題為:{},連結為:{}'.format(title_list[i], post_url_list[i]))
本作品採用《CC 協議》,轉載必須註明作者和本文連結