Python爬蟲教程-18-頁面解析和資料提取

肖朋偉發表於2018-09-06

本篇針對的資料是已經存在在頁面上的資料,不包括動態生成的資料,今天是對HTML中提取對我們有用的資料,去除無用的資料

Python爬蟲教程-18-頁面解析和資料提取

  • 結構化資料:先有的結構,再談資料
    • json資料
      • 1.處理此類資料,通常使用JSON Path
      • 2.轉換成python型別的資料,再進行操作(json類)
    • XML檔案
      • 轉換成python型別(xmltodict)
      • XPath
      • CSS選擇器
      • 正規表示式
  • 非結構化資料:先有的資料,再談結構
    • 文字
    • 電話號碼
    • 郵箱地址
      • 處理此類資料,通常使用正規表示式
    • HTML程式碼
      • 正規表示式
      • XPath
      • CSS選擇器

具體內容文章連結

  • 正規表示式 點我連結
    • match:從開始位置開始查詢,一次匹配,即1次匹配成功則退出
    • search:從任何位置開始查詢,一次匹配
    • findall:全部匹配,返回列表
    • finditer:全部匹配,返回迭代器
    • split:分割字串,返回列表
    • sub:替換
  • xml 點我連結
  • x-path 點我連結

更多文章連結:Python 爬蟲隨筆


  • 本筆記不允許任何個人和組織轉載

相關文章