python爬蟲用bs4獲取標籤中間的文字內容以及標籤裡的屬性

想變成大佬的小白發表於2020-10-05

在爬取網頁的時候,用bs4庫爬取網頁上想要的一塊標籤,但是卻不知道怎麼提取裡面的內容,或者不知道怎麼得到標籤裡面的各種屬性值,比如a標籤的href屬性的值,這裡有幾種方法:

  • 使用get_text()或者是.text同時取出了div標籤下的文字及子標籤文字。
    例項如圖:
    在這裡插入圖片描述
detials=dl.select('p')[0].text
    print(detials)

執行結果如圖:
在這裡插入圖片描述

可以看到後面的【詳細】是在p標籤下的子標籤裡面的內容

  • 如果已經拿到了最裡層的標籤的話,可以直接用.string的方法獲取標籤內的文字
details = dl.select('p a')[0].string

執行結果:
在這裡插入圖片描述

  • 如果拿到的並不是最裡層的標籤,但是要獲取的文字在標籤裡面,那麼可以用find+contents的方法,該方法返回的是一個陣列,可以根據我們的需求得到特定的文字
  details = dl.find('p').contents[0]

執行結果:
在這裡插入圖片描述

相關文章