在xpath中text()和string(.)的區別

ckxllf發表於2019-08-26

  我們在進行爬蟲時候,經常會遇到如下這樣的頁面:

  你好,北京

  在日常抓取的時候,遇到更多的情況是抓取中的你好,這時使用xpath("//div/em/text()")就可以提取到。

  現在我們考慮下面兩種抓取需求:

  需求1:我們想要提取“,北京”的時候,這個時候該用text(),還是string(.)?

  需求2:提取 “你好,北京”呢?

  我們先使用lxml庫對頁面進行一下初始化(如果你用的是scrapy的xpath選擇器,也可以按照以下步驟執行):

  from lxml import etree

  with open('foo.html', 'r') as f:

  content = f.read().encode('utf8')

  page = etree.HTML(content)

  這裡我們先看一下需求1的解法,也就是提取“,北京”:

  re = page.xpath("//div/text()")

  這裡re得到的是一個陣列:

  這是因為在頁面中標籤

  和之間是有換行符號的,因此使用"//div/text()"後會忽略掉你好,而剩下"\n",“,北京\n”兩個元素。

  我們取re的第二個元素,然後去掉結尾的換行符"\n"(如果你使用的是scrapy的xpath,這裡re得到的可能不是一個陣列):

  re = re[1].strip()

  這個時候得到的re就是我們需要的",北京"了。

  現在看一下第二個需求:提取"你好,北京":

  這裡就要求裡面的文字也要提取出來了,這時候我們使用string:

  re = page.xpath("//div")[0].xpath("string(.)")

  這時來看下re的值(同樣如果你使用的是scrapy的選擇器,scrapy_selector.xpath("//div")返回的結果可能不是一個陣列,不過你只要取到結果然後再使用.xpath("string(.)")即可。):

  

  得到的一整串文字" \n 你好,北京\n "。

  看來使用"string(.)"後,xpath會把裡的內容也直接提取出來,而不像上面中"text()"那樣把都去掉後,再分割成一個陣列。這裡注意使用string()時候要把string(.)放在一個xpath中,而不是寫成"//div/string(.)"這樣,否則會抓取不到。

  然後,同樣的再去除一下兩邊多餘的空格和換行符

  re = re.strip()

  這個時候re得到就是”你好,北京“啦。

  總結: 無錫人流醫院 http://www.0510bhyy.com/

  通過上述的實驗,我們發現xpath裡面text()只會取當層節點的文字並按照當層的tag進行分割,組成列表。而string(.)會把當層節點以及當層節點以下的所有文字都提取出來,放在一個字串變數中。

  例項程式碼:

  test.py:

  # coding=utf-8

  from lxml import etree

  import sys

  reload(sys)

  sys.setdefaultencoding('utf-8')

  class Test(object):

  def __init__(self):

  with open('foo.html', 'r') as f:

  content = f.read().encode('utf8')

  self.page = etree.HTML(content)

  print self.page

  def xpath_text(self):

  re = self.page.xpath("//div/text()")

  print re

  re = re[1].strip()

  print re

  return re

  def xpath_string(self):

  re = self.page.xpath("//div")[0].xpath("string(.)")

  print re

  # 替換換行符等

  re = re.strip(re)

  print re

  return re

  if __name__ == "__main__":

  t = Test()

  assert t.xpath_text() == u",北京"

  assert t.xpath_string() == u"你好,北京"

  foo.html:

  你好,北京


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69945560/viewspace-2654912/,如需轉載,請註明出處,否則將追究法律責任。

相關文章