如何利用 Selenium 爬取評論資料?

GitChat的部落格發表於2018-04-12

我們知道,如今的 web 網頁資料很多是動態載入的,普通的爬蟲只是抓取靜態的網頁。實用性很差,因此,我們需要使用 Selenium 來爬取動態資料。評論區的資料,大多數情況下,都需要下拉重新整理才能載入出來。而 Selenium 就能幫我們很好的爬取動態資料。

在本場 Chat 中我將介紹如何用基於 Selenium 的爬蟲爬取 B 站評論,並介紹如何用 Firefox 瀏覽器的實用外掛 FirePath 協助爬蟲。主要內容包括:

  1. 對比靜態爬蟲與動態爬蟲
  2. 什麼是 Selenium?Selenium 工具的安裝(基於 Firefox 瀏覽器)
  3. 介紹強大的 Xpath 定位工具——FirePath 協助爬蟲
  4. 例項操作:爬取 B 站評論
  5. 擴充:介紹 Tar 瀏覽器,實現匿名 IP 爬蟲,防止 IP 封禁

閱讀全文: http://gitbook.cn/gitchat/activity/59ef0fbf54011222e227c720

一場場看太麻煩?成為 GitChat 會員,暢享 1000+ 場 Chat !點選檢視

相關文章