本篇針對的資料是已經存在在頁面上的資料,不包括動態生成的資料,今天是對HTML中提取對我們有用的資料,去除無用的資料
Python爬蟲教程-18-頁面解析和資料提取
- 結構化資料:先有的結構,再談資料
- json資料
- 1.處理此類資料,通常使用JSON Path
- 2.轉換成python型別的資料,再進行操作(json類)
- XML檔案
- 轉換成python型別(xmltodict)
- XPath
- CSS選擇器
- 正規表示式
- json資料
- 非結構化資料:先有的資料,再談結構
- 文字
- 電話號碼
- 郵箱地址
- 處理此類資料,通常使用正規表示式
- HTML程式碼
- 正規表示式
- XPath
- CSS選擇器
具體內容文章連結
- 正規表示式 點我連結
- match:從開始位置開始查詢,一次匹配,即1次匹配成功則退出
- search:從任何位置開始查詢,一次匹配
- findall:全部匹配,返回列表
- finditer:全部匹配,返回迭代器
- split:分割字串,返回列表
- sub:替換
- xml 點我連結
- x-path 點我連結
更多文章連結:Python 爬蟲隨筆
- 本筆記不允許任何個人和組織轉載