只要瀏覽器能瀏覽,我就能爬取——selenium+chrome

weixin_34007291發表於2017-06-06

只要瀏覽器能瀏覽,我就能爬取。               ————一隻快樂的小爬蟲

靜態網頁的爬取只是基礎部分,感覺核心就在於提取網頁資訊和應對反爬蟲,關於這兩個方面,我寫了兩篇文章:

python爬蟲裡資訊提取的核心方法: Beautifulsoup Xpath 正規表示式

應對反爬蟲最簡單的策略——隨機UA+遞迴request

很多網站都採取了動態網頁,什麼是動態網頁呢,以最直觀的圖片網站來說,靜態網頁裡面,頁面上所有的元素都可以在html中找到,每個元素都對應著相關的資訊,title、href、url、name等等一目瞭然,我要做的只是抓取和分析,繼而提取有用的資訊。而動態網頁,只有你在瀏覽器中點選了確切的按鈕才會載入出正確的資訊,否則只是一個很短的html,裡面沒有我們所需要的title、href、url、name等資訊。這時候就需要真正的瀏覽器上場了。selenium+chrome(firefox或者phathonJS也可以)基本上可以解決這個問題。

Python+Selenium WebDriver API:瀏覽器及元素的常用函式及變數整理總結(轉載)

相關文章