只要瀏覽器能瀏覽,我就能爬取——selenium+chrome
只要瀏覽器能瀏覽,我就能爬取。 ————一隻快樂的小爬蟲
靜態網頁的爬取只是基礎部分,感覺核心就在於提取網頁資訊和應對反爬蟲,關於這兩個方面,我寫了兩篇文章:
python爬蟲裡資訊提取的核心方法: Beautifulsoup Xpath 正規表示式
很多網站都採取了動態網頁,什麼是動態網頁呢,以最直觀的圖片網站來說,靜態網頁裡面,頁面上所有的元素都可以在html中找到,每個元素都對應著相關的資訊,title、href、url、name等等一目瞭然,我要做的只是抓取和分析,繼而提取有用的資訊。而動態網頁,只有你在瀏覽器中點選了確切的按鈕才會載入出正確的資訊,否則只是一個很短的html,裡面沒有我們所需要的title、href、url、name等資訊。這時候就需要真正的瀏覽器上場了。selenium+chrome(firefox或者phathonJS也可以)基本上可以解決這個問題。
相關文章
- 前端面試瀏覽器系列:瀏覽器快取前端面試瀏覽器快取
- 瀏覽器快取瀏覽器快取
- 我理解的瀏覽器快取策略瀏覽器快取
- 瀏覽器之我見瀏覽器
- 瀏覽器快取策略瀏覽器快取
- Nginx瀏覽器快取Nginx瀏覽器快取
- sessionStorage 瀏覽器快取Session瀏覽器快取
- 瀏覽器快取原理瀏覽器快取
- 瀏覽器快取篇瀏覽器快取
- 關於瀏覽器快取我知道多少瀏覽器快取
- 【瀏覽器】瀏覽器基本工作原理瀏覽器
- 我也愛Firebird瀏覽器瀏覽器
- js 獲取瀏覽器核心JS瀏覽器
- 火狐瀏覽器禁用快取瀏覽器快取
- 淺析瀏覽器快取瀏覽器快取
- 瀏覽器快取機制瀏覽器快取
- 快取策略之瀏覽器快取瀏覽器
- Nginx配置瀏覽器快取Nginx瀏覽器快取
- 如何清除瀏覽器快取瀏覽器快取
- 瀏覽器快取詳解瀏覽器快取
- javascript 獲取瀏覽器資訊JavaScript瀏覽器
- 瀏覽器瀏覽器
- Chrome 瀏覽器修改 UA 模擬其它瀏覽器,包括移動瀏覽器Chrome瀏覽器
- 谷歌瀏覽器怎麼清除快取 chrome瀏覽器清理快取方法介紹谷歌瀏覽器快取Chrome
- 基石-初見瀏覽器(一):瀏覽器渲染瀏覽器
- Min瀏覽器: 更快更輕量瀏覽器瀏覽器
- .net火狐瀏覽器 ie瀏覽器 判斷瀏覽器
- 這樣就能微信跳外部瀏覽器?好方便瀏覽器
- 只需瀏覽器,就能幫你搞定原型設計瀏覽器原型
- 呼叫瀏覽器的爬蟲——selenium瀏覽器爬蟲
- microsoft edge是ie瀏覽器嗎 edge瀏覽器和ie瀏覽器一樣嗎ROS瀏覽器
- 深入剖析瀏覽器快取策略瀏覽器快取
- 瀏覽器的快取機制瀏覽器快取
- 瀏覽器HTTP快取機制瀏覽器HTTP快取
- 瀏覽器快取機制剖析瀏覽器快取
- 清除瀏覽器快取的方法瀏覽器快取
- js獲取ip,瀏覽器資訊JS瀏覽器
- 瀏覽器HTTP快取原理分析瀏覽器HTTP快取