Python爬取CSDN部落格資料

嗨學程式設計發表於2019-01-03

其實這事情挺簡單的,開啟CSDN部落格首頁,他不是有個最新文章麼,這個裡面都是最新發布的文章。

本人對於Python學習建立了一個小小的學習圈子,為各位提供了一個平臺,大家一起來討論學習Python。歡迎各位到來Python學習群:960410445一起討論視訊分享學習。Python是未來的發展方向,正在挑戰我們的分析能力及對世界的認知方式,因此,我們與時俱進,迎接變化,並不斷的成長,掌握Python核心技術,才是掌握真正的價值所在。
Python爬取CSDN部落格資料

開啟F12抓取一下資料API,很容易就獲取到了他的介面

Python爬取CSDN部落格資料

提取連結長成這個樣子

https://blog.csdn.net/api/articles?type=more&category=newarticles&shown_offset=1540381234000000

發現部落格最新文章是一個瀑布流頁面,不斷下拉,只有一個引數shown_offset 在變化,按照我多年的行醫經驗,這個引數是個時間戳,而且肯定是上一次資料最後一條的時間戳。

基於這個理論,看一下資料,咦,猜對了~~~~~

部落格返回的資料看一下,是否對味

Python爬取CSDN部落格資料

擼程式碼

這個步驟就非常簡單了,就是通過requests去抓取這個連結就好了

Python爬取CSDN部落格資料


資料獲取到了,當然要象徵性的儲存一下

Python爬取CSDN部落格資料


相關文章