BeautifulSoup4 find_all搜尋包含指定文字內容的標籤返回空list的問題

最近幫助公司其他團隊用python寫了一個爬蟲，遇到了不少問題，其中就有一個問題是使用BeautifulSoup4的find_all搜尋包含指定文字內容時返回的是空的list，檢視了官方文件也上google搜尋了一些類似的問題，發現是因為在使用bs4的find_all結合正規表示式查詢指定文字的時候，搜尋的是bs4返回元素中string屬性中的資訊，而不是text屬性。並且如果某個元素中如果還包含除了文字之外的子元素，string屬性返回會是None，而不是像text屬性中那樣的文字資訊。

如果HTML中的內容結構像下面這樣:

<td>some text</td> 
<td></td>
<td><p>more text</p></td>
<td>even <p>more text</p></td>
複製程式碼

td 上的.string屬性將會返回下面的內容： 1、some text 2、None 3、more text 4、None

.text 屬性將會返回下面的內容： 1、some text 2、 3、more text 4、even more text

如果想要了解.find和.string之間的差異可以檢視Python BeautifulSoup 中.text與.string的區別

解決辦法是使用lambda函式

>>> soup.find_all(lambda e: e.name == 'td' and 'Black' in e.text)
[<td id="rp10" valign="top">Black or African American alone, percent, 2013 (a)  <!-- RHI225213 --> </td>, <td id="re6" valign="top">Black-owned firms, percent, 2007  <!-- SBO315207 --> </td>]
複製程式碼

跳轉個人主頁的指定標籤內容
2018-03-15
Android之去掉文字內容的HTML標籤
2018-09-30
AndroidHTML
Flutter文字標籤TextTagWidget，搜尋記錄流式佈局顯示文字標籤
2020-06-26
Flutter
Mybatis系列：解決foreach標籤內list為空的問題
2019-01-02
MyBatis
Python提取文字指定內容
2024-03-26
Python
6個使用正規表示式搜尋文字中內容的工具
2021-11-08
PbootCMS可使用的列表標籤內容tags標籤呼叫
2024-08-16
boot
win10搜尋檔案內容怎麼操作_win10如何搜尋文件內的內容
2020-07-03
Win10
idea全域性搜尋的快捷鍵 idea搜尋內容快捷鍵
2022-05-25
Idea
python爬蟲用bs4獲取標籤中間的文字內容以及標籤裡的屬性
2020-10-05
Python爬蟲
正規表示式：後面不要包含指定的字串內容
2019-04-07
字串
織夢標籤搜尋框呼叫
2021-03-29
HHDESK檔案內文字搜尋功能
2023-02-13
搜尋本地pdf檔案內容
2024-12-04
使用Map標籤指定點選區域時的相容性問題
2018-05-20
Nebula 基於 ElasticSearch 的全文搜尋引擎的文字搜尋
2021-06-17
Elasticsearch
關於搜尋地址的問題
2021-03-06
4.20 使用條件格式標識包含指定文字的單元格 [Excel教程]
2018-04-10
Excel
利用Adguard遮蔽必應搜尋中的CSDN內容
2024-09-21
通過API開啟PDF檔案，並進行指定文字的搜尋
2021-10-08
API
Linux vim 搜尋文字的方式
2020-11-19
Linux
搜尋引擎優化內容及方法
2020-12-04
優化
解決 PbootCMS 搜尋未搜尋到任何資料的問題
2024-09-03
boot
SAP Fiori應用的搜尋問題
2020-02-19
JSTL的標籤及使用，包含例項
2018-08-06
JS
單詞搜尋問題
2022-05-28
qt 設定QTextEdit文字框中指定內容塊的背景顏色
2024-04-24
QT
內容社群行業搜尋最佳實踐
2022-11-23
行業
Bing希望改變搜尋引擎發現新內容的方式
2019-02-11
點選搜尋框清空搜尋提示文字
2018-03-16
PbootCMS呼叫搜尋頁和標籤頁的關鍵詞及數量
2024-10-26
boot
PbootCMS模板內容詳情頁標籤呼叫
2024-11-29
boot
獲取標籤全部文字的方式
2018-08-06
關於a標籤的字型顏色問題
2019-01-02
Mac上神奇的內建搜尋引擎——Spotlight(聚焦搜尋)
2020-12-14
Mac
將input標籤的內容設定為修改觸發操作
2018-03-12
關於QT的標頭檔案相互包含的問題
2024-05-23
QT
資訊資源管理文字題之“結合案例分析資訊資源規劃包含的內容”
2024-11-29

BeautifulSoup4 find_all搜尋包含指定文字內容的標籤返回空list的問題

相關文章