Python爬蟲教程-01-爬蟲介紹

肖朋偉發表於2018-09-06

Spider-01-爬蟲介紹

Python 爬蟲的知識量不是特別大,但是需要不停和網頁打交道,每個網頁情況都有所差異,所以對應變能力有些要求

爬蟲準備工作

  • 參考資料
  • 精通Python爬蟲框架Scrapy,人民郵電出版社

基礎知識

  • url, http
  • web前端,html,css,js
  • ajax
  • re,xpath
  • xml

python 爬蟲簡介

  • 爬蟲定義:網路爬蟲(又被稱為網頁蜘蛛,網路機器人,在FOAF社群中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或者蠕蟲
  • 兩大特徵
    - 能按照作者要求下載資料
    - 能自動在網路上流竄
  • 三大步驟
    - 下載網頁
    - 提取正確的資訊
    - 根據一定規則自動跳到另外的網頁上執行上兩步操作
  • 爬蟲分類
    - 通用爬蟲:
    不分類,比如百度搜尋引擎,我們通過百度輸入資料,獲取百度爬蟲從各種網站爬到的資料
    - 專用爬蟲(聚焦爬蟲) :
    就是我們介紹的,關於某一類的資料,比如說,需要爬智聯招聘網站,某地區的招聘資訊

  • Python網路包簡介
    - Python2.* :urllib, urllib2, urllib3, httplib, httplib2, requests
    - Python3.* :urllib, urllib3, httplib2, requests
    - Python2:urllib, urllib2配合使用,或者requests
    - Python3:urllib,requests

我的爬蟲筆記


  • 本筆記學習於圖靈學院python全棧課程
  • 本筆記不允許任何個人和組織轉載

相關文章