python爬蟲瞭解第一篇

wanghui發表於2019-02-16

爬蟲開始

爬蟲的實際例子

  • 搜尋引擎:關鍵字匹配提取,前提是要將所有的頁面爬一遍,然後存到自己的伺服器,當使用者驚醒搜尋的時候,根據自己的搜尋內容,搜尋引擎將使用者搜尋資訊返回給使用者。
  • 伯樂線上: 文章的搬運工(http://www.jobbole.com/
  • 惠惠購物助手: 谷歌外掛,爬到電商平臺的價格對比。
  • 資料分析與研究: 某一行業的資料分析(基於實際的資料分析),資料冰山&輿情分析&資料視覺化
  • 搶票軟體:模擬人點選的操作。

什麼是網路爬蟲

  • 通俗理解就是: 一個模擬人請求網站的程式,可以自動請求網頁並將所定義需求的資料抓取下來,然後提取有價值的資料。

通用爬蟲和聚焦爬蟲

  • 通用爬蟲:類似於搜尋引擎抓取系統的重要組成部分。主要將網頁資訊下載到搜尋引擎儲存,形成一個網際網路內容的映象備份
  • 聚焦爬蟲: 面向特定需求的一種爬蟲。會將爬去到的資訊進行篩選和處理

準備工具

  • Python3+
  • Pycharm Professional
  • 虛擬環境

相關文章