爬蟲開始
爬蟲的實際例子
- 搜尋引擎:關鍵字匹配提取,前提是要將所有的頁面爬一遍,然後存到自己的伺服器,當使用者驚醒搜尋的時候,根據自己的搜尋內容,搜尋引擎將使用者搜尋資訊返回給使用者。
- 伯樂線上: 文章的搬運工(
http://www.jobbole.com/
) - 惠惠購物助手: 谷歌外掛,爬到電商平臺的價格對比。
- 資料分析與研究: 某一行業的資料分析(基於實際的資料分析),資料冰山&輿情分析&資料視覺化
- 搶票軟體:模擬人點選的操作。
什麼是網路爬蟲
- 通俗理解就是: 一個模擬人請求網站的程式,可以自動請求網頁並將所定義需求的資料抓取下來,然後提取有價值的資料。
通用爬蟲和聚焦爬蟲
- 通用爬蟲:類似於搜尋引擎抓取系統的重要組成部分。主要將網頁資訊下載到搜尋引擎儲存,形成一個網際網路內容的映象備份
- 聚焦爬蟲: 面向特定需求的一種爬蟲。會將爬去到的資訊進行篩選和處理
準備工具
- Python3+
- Pycharm Professional
- 虛擬環境