python爬蟲用bs4獲取標籤中間的文字內容以及標籤裡的屬性
在爬取網頁的時候,用bs4庫爬取網頁上想要的一塊標籤,但是卻不知道怎麼提取裡面的內容,或者不知道怎麼得到標籤裡面的各種屬性值,比如a標籤的href屬性的值,這裡有幾種方法:
- 使用get_text()或者是.text同時取出了div標籤下的文字及子標籤文字。
例項如圖:
detials=dl.select('p')[0].text
print(detials)
執行結果如圖:
可以看到後面的【詳細】是在p標籤下的子標籤裡面的內容
- 如果已經拿到了最裡層的標籤的話,可以直接用.string的方法獲取標籤內的文字
details = dl.select('p a')[0].string
執行結果:
- 如果拿到的並不是最裡層的標籤,但是要獲取的文字在標籤裡面,那麼可以用find+contents的方法,該方法返回的是一個陣列,可以根據我們的需求得到特定的文字
details = dl.find('p').contents[0]
執行結果:
相關文章
- 獲取html標籤包裹的文字內容HTML
- 通過JavaScript獲取標籤,修改標籤內容JavaScript
- 請教如何在標籤的dostart裡獲取當前頁面的URL地址以及父標籤的標籤型別和某個屬性的屬性值呢?型別
- jQuery基礎學習(3)(獲取標籤屬性,動態新增標籤)jQuery
- js獲取內容中的url連結,並設定a標籤JS
- 標籤的 src 屬性
- Android之去掉文字內容的HTML標籤AndroidHTML
- HTML標籤屬性HTML
- 獲取iframe標籤的src屬性值程式碼例項
- C#裡面標籤的屬性和事件C#事件
- Android 自定義view中的屬性,名稱空間,以及tools標籤AndroidView
- Vue 標籤中的ref屬性和refsVue
- HTML 常用的標籤和屬性HTML
- Maven屬性(properties)標籤的使用Maven
- script標籤的crossorigin屬性ROS
- 常用的HTML標籤和屬性HTML
- input標籤單行文字域type="text"的可以新增屬性以及其描述
- jquery獲取struts2標籤 裡的key valuejQuery
- 內嵌標籤frameset框架屬性及用法框架
- 使用 tpl 標籤和 for 讀取物件屬性值中的陣列物件陣列
- input標籤autocomplete 屬性
- jquery對標籤屬性操作jQuery
- JSP自定義標籤之三:為標籤新增屬性JS
- 網路爬蟲-去除網頁原始碼中的標籤爬蟲網頁原始碼
- 如何用jsp:setproperty標籤為自己寫的標籤類賦屬性JS
- <checkBox>標籤的value屬性的作用
- css實現的禁止標籤中內容選中效果CSS
- vue 標籤和屬性中 字串拼接方法Vue字串
- jquery如何獲取標籤的名稱jQuery
- python爬蟲練習之爬取豆瓣讀書所有標籤下的書籍資訊Python爬蟲
- JavaScript獲取元素標籤名JavaScript
- C#操作Word之 根據標籤名清除標籤內容C#
- python中pyquery無法獲取標籤名的dom節點Python
- 標籤的alt屬性簡單介紹
- 去html標籤,只取純文字HTML
- HTML 標籤與屬性大小寫HTML
- xss標籤和屬性爆破
- link標籤屬性介紹