只要瀏覽器能瀏覽，我就能爬取——selenium+chrome

weixin_34007291發表於2017-06-06

只要瀏覽器能瀏覽，我就能爬取。 ————一隻快樂的小爬蟲

靜態網頁的爬取只是基礎部分，感覺核心就在於提取網頁資訊和應對反爬蟲，關於這兩個方面，我寫了兩篇文章：

python爬蟲裡資訊提取的核心方法: Beautifulsoup Xpath 正規表示式

很多網站都採取了動態網頁，什麼是動態網頁呢，以最直觀的圖片網站來說，靜態網頁裡面，頁面上所有的元素都可以在html中找到，每個元素都對應著相關的資訊，title、href、url、name等等一目瞭然，我要做的只是抓取和分析，繼而提取有用的資訊。而動態網頁，只有你在瀏覽器中點選了確切的按鈕才會載入出正確的資訊，否則只是一個很短的html，裡面沒有我們所需要的title、href、url、name等資訊。這時候就需要真正的瀏覽器上場了。selenium+chrome（firefox或者phathonJS也可以）基本上可以解決這個問題。

Python+Selenium WebDriver API：瀏覽器及元素的常用函式及變數整理總結（轉載）

前端面試瀏覽器系列：瀏覽器快取
2019-04-24
前端面試瀏覽器快取
瀏覽器快取
2018-11-10
瀏覽器快取
我理解的瀏覽器快取策略
2019-12-26
瀏覽器快取
瀏覽器快取策略
2019-04-06
瀏覽器快取
瀏覽器快取原理
2018-06-12
瀏覽器快取
Nginx瀏覽器快取
2018-03-19
Nginx瀏覽器快取
瀏覽器之我見
2018-08-19
瀏覽器
【瀏覽器】瀏覽器基本工作原理
2021-04-30
瀏覽器
快取策略之瀏覽器
2018-09-11
快取瀏覽器
淺析瀏覽器快取
2019-08-10
瀏覽器快取
瀏覽器快取機制
2019-08-03
瀏覽器快取
Nginx配置瀏覽器快取
2020-10-18
Nginx瀏覽器快取
js 獲取瀏覽器核心
2020-04-05
JS瀏覽器
火狐瀏覽器禁用快取
2019-05-11
瀏覽器快取
呼叫瀏覽器的爬蟲——selenium
2020-03-27
瀏覽器爬蟲
Chrome 瀏覽器修改 UA 模擬其它瀏覽器，包括移動瀏覽器
2021-09-09
Chrome瀏覽器
瀏覽器
2024-11-15
瀏覽器
谷歌瀏覽器怎麼清除快取 chrome瀏覽器清理快取方法介紹
2022-08-30
谷歌瀏覽器快取Chrome
Min瀏覽器: 更快更輕量瀏覽器
2018-11-04
瀏覽器
基石-初見瀏覽器（一）：瀏覽器渲染
2019-12-08
瀏覽器
microsoft edge是ie瀏覽器嗎 edge瀏覽器和ie瀏覽器一樣嗎
2022-10-11
ROS瀏覽器
瀏覽器的快取機制
2019-03-20
瀏覽器快取
深入剖析瀏覽器快取策略
2019-04-03
瀏覽器快取
瀏覽器快取機制（詳）
2024-10-15
瀏覽器快取
怎麼清除瀏覽器快取？瀏覽器快取清理的方法步驟是什麼？
2024-10-06
瀏覽器快取
“木偶”瀏覽器
2019-03-02
瀏覽器
瀏覽器核心
2018-05-10
瀏覽器
瀏覽器原理
2018-05-27
瀏覽器
瀏覽器渲染
2024-10-29
瀏覽器
[瀏覽器]LocalStorage
2024-07-06
瀏覽器
瀏覽器快取和webpack快取配置
2018-07-05
瀏覽器快取Web
這樣就能微信跳外部瀏覽器？好方便
2020-06-12
瀏覽器
網路篇—瀏覽器快取（一）
2019-02-16
瀏覽器快取
淺談瀏覽器快取機制
2018-11-09
瀏覽器快取
瀏覽器快取你瞭解麼?
2019-02-28
瀏覽器快取
瀏覽器快取機制詳解
2018-06-03
瀏覽器快取
徹底弄懂瀏覽器快取策略
2020-07-24
瀏覽器快取
瀏覽器之爭：程式設計師眼裡瀏覽器的地位 IE：我開了！
2019-03-31
瀏覽器程式設計師
瀏覽器之爭：程式設計師眼裡瀏覽器的地位IE：我開了！
2019-05-16
瀏覽器程式設計師

只要瀏覽器能瀏覽，我就能爬取——selenium+chrome

相關文章