day11 Xpath

YuFu259發表於2024-06-07

網頁分析有優勢,全稱XML Path Language一種小型的查詢語言
優點:可在XML中查詢資訊
支援HTML的查詢
透過元素和屬性進行導航
PY使用需要安裝庫:安裝lxml
selector = etree.HTML(html_doc)//例項化物件,實際上就是一個Element類,透過



邏輯運算:
//div[@id and @class]查詢同時擁有的元素
//title | //price # 選取文件中的所有title和price元素,'|'兩邊必須是完整xpath路徑
屬性查詢:
單引號和雙引號//
練習
讀 ,存,提取

檔案控制代碼:目錄檔案獲取//在html檔案裡面查詢豆瓣top250.html,模式為mode=r 讀
file = open("html檔案/豆瓣top250.html",mode="r")
游標移動:讀檔案個數或者數字的時候,第一個讀取和第二個讀取是連線上的
迴圈高效獲取資料
for line in file:\每次迴圈file的資料都會賦值給line,在列印出來 記憶體的垃圾回收
print(line)\缺點是分次列印,資料是分段的,雖然可以達到效果
寫檔案的完整操作:儲存爬蟲資料到檔案上面
file = open("豆瓣優秀電影.json,mode=''w") //模式寫,建立一個json的檔案 a追加
import json //引入
infosStr = json.dumps(infos,ensure_ascii=False)//ascii=False 不轉碼,直接輸出格式
file.write(infosStr)//寫入檔案,先清空後但是會覆蓋
file.close()//經常需要關閉檔案