xpath節點匹配簡易教程

右介發表於2017-05-09

2017-03-23

非本人原創,只是寫爬蟲時很有用,就留下了

<A id="a1">
   <B id="b1">
    <C id="c1">
     <B name="b"/>
     <D id="d1"/>
     <E id="e1"/>
     <E id="e2"/>
    </C>
   </B>
   <B id="b2"/>
   <C id="c2">
    <B/>
    <D id="d2"/>
    <F/>
   </C>
   <E/>
  </A>
以下將要介紹一些XPath中節點匹配的基本方法。

  路徑匹配

  路徑匹配與檔案路徑的表示相仿,比較好理解。有以下幾個符號:

  (1)用“/”指示節點路徑

  如“/A/C/D” 表示節點"A"的子節點"C"的子節點"D",即id值為d2的D節點, “/”表示根節點。

     (2)用“//” 表示所有路徑以"//"後指定的子路徑結尾的元素

  如“//E” 表示所有E元素,結果是所有三個E元素,如“//C/E”表示所有父節點為C的E元素,結果是id值為e1和e2的兩個E元素 。

  (3)用“*” 表示路徑的萬用字元

  如“/A/B/C/*”表示 A元素→B元素→C元素下的所有子元素,即name值為b的B元素、 id值為d1的D元素和id值為e1和e2的兩個E元素

  “/*/*/D”表示上面有兩級節點的D元素,匹配結果是id值為d2的D元素 ,如“//*”表示所有的元素。

  位置匹配

對於每一個元素,它的各個子元素是有序的。

  如:/A/B/C/B[1]表示A元素→B元素→C元素的第一個B元素,得到name值為b的B元素

  /A/B/C/E[last()]表示A元素→B元素→C元素的最後一個E元素,得到id值為e2的E元素

  /A/B/C/E[position()>1]表示A元素→B元素→C元素之下的位置號大於1的E元素,得到id值為e2的E元素 

  屬性及屬性值

  在XPath中可以利用屬性及屬性值來匹配元素,要注意的是,元素的屬性名前要有"@"字首。例如:

  //B[@id]表示所有具有屬性id的B元素,結果為id值為b1和b2的兩個B元素

  //B[@*]表示所有具有屬性的B元素,結果為兩個具有id屬性的B元素和一個具有name屬性B元素

  //B[not(@*)]表示所有不具有屬性的B元素,結果為A元素→C元素下的B元素

  //B[@id="b1"] id值為b1的B元素,結果為A元素下的B元素

  親屬關係匹配

XML文件可歸結為樹型結構,因此任何一個節點都不是孤立的。通常我們把節點之間的歸屬關係歸結為一種親屬關係,如父親、孩子、祖先、後代、兄弟等等。在對元素進行匹配時,同樣可以用到這些概念。例如:

    //E/parent::* 表示所有E節點的父節點元素,結果為id值為a1的A元素和id值為c1的C元素

  //F/ancestor::* 表示所有F元素的祖先節點元素,結果為id值為a1的A元素和id值為c2的C元素

  /A/child::* 表示A的子元素,結果為id值為b1、b2的B元素,id值為c2的C元素,以及沒有任何屬性的E元素

  /A/descendant::* 表示A的所有後代元素,結果為除A元素以外的所有其它元素

  //F/self::* 表示所有F的自身元素,結果為F元素本身

  //F/ancestor-or-self::* 表示所有F元素及它的祖先節點元素,結果為F元素、F元素的父節點C元素和A元素

  /A/C/descendant-or-self::* 表示所有A元素→C元素及它們的後代元素,結果為id值為c2的C元素、該元素的子元素B、D、F元素

  /A/C/following-sibling::* 表示A元素→C元素的緊鄰的後序所有兄弟節點元素,結果為沒有任何屬性的E元素

  /A/C/preceding-sibling::* 表示A元素→C元素的緊鄰的前面所有兄弟節點元素,結果為id值為b1和b2的兩個B元素

  /A/B/C/following::* 表示A元素→B元素→C元素的後序的所有元素,結果為id 為b2的B元素、無屬性的C元素、無屬性的B元素、id為d2的D元素、無屬性的F元素、無屬性的E元素。

  /A/C/preceding::* 表示A元素→C元素的前面的所有元素,結果為id為b2的B元素、id為e2的E元素、id為e1的E元素、id為d1的D元素、name為 b的B元素、id為c1的C元素、id為b1的B元素

相關文章