Python爬蟲教程-20-xml 簡介

肖朋偉發表於2018-09-06

本篇簡單介紹 xml 在python爬蟲方面的使用,想要具體學習 xml 可以到 w3school 檢視 xml 文件
xml 文件連結:http://www.w3school.com.cn/xmldom/xmldom_reference.asp

Python爬蟲教程-20-xml簡介

  • XML(Extensible Markup Language) 可擴充套件標記語言,標準通用標記語言的子集,是一種用於標記電子檔案使其具有結構性的標記語言。
  • 用途:它被設計用來 傳輸儲存 資料

簡單的概念:

結點
  • 結點:XML 文件中的每個成分都是一個節點
  • 整個文件是一個文件節點
  • 每個 XML 標籤是一個元素節點
  • 包含在 XML 元素中的文字是文字節點
  • 每一個 XML 屬性是一個屬性節點
  • 註釋屬於註釋節點
  • xml案例py28.xml檔案:https://xpwi.github.io/py/py%E7%88%AC%E8%99%AB/py28.xml
<?xml version="1.0" encoding="UTF-8" ?>

<booksore>
    <book category="cooking">
        <title lang="en">Everyday Italian</title>
        <auther>Gidada De</auther>
        <year>2018</year>
        <price>23</price>
    </book>

    <book category="education">
        <title lang="en">Python is Python</title>
        <auther>Food War</auther>
        <year>2008</year>
        <price>83</price>
    </book>

    <book category="sport">
        <title lang="en">Running</title>
        <auther>Klaus Kuka</auther>
        <year>2010</year>
        <price>43</price>
    </book>

</booksore>
  • 在上面的 XML 中,根節點是 。文件中的所有其他節點都被包含在
  • 根節點 有3個 節點:
  • 第一個 節點有4個節點:, <author>, <year> 以及 <price>,其中每個節點都包含一個文字節點,"Everyday Italian", "Gidada De", "2018" 以及 "23"</price></year></author>

其他就不介紹了,附上鍊接

XML文件

結點操作

自行檢視文件就可以 http://www.w3school.com.cn/xmldom/dom_intro.asp

更多文章連結:Python 爬蟲隨筆


  • 本筆記不允許任何個人和組織轉載

相關文章