獲取標籤全部文字的方式
1.獲取最外層標籤,遍歷內部所有的子標籤,獲取標籤文字
選擇貼吧小說吧中的一個為例 連結為 https://tieba.baidu.com/p/5815118868?pn=1
#找到指定類名的div標籤 該標籤內為貼吧內容和作者的集合體
div_list = response.xpath('//div[@class="l_post l_post_bright j_l_post clearfix "]')
#遍歷內部所有子標籤
for div in div_list:
author = div.xpath('.//div[@class="louzhubiaoshi_wrap"]').extract()
print(author)
2.正則去掉標籤,re.compile.sub()
remove = re.compile('\s')
douhao = re.compile(',')
content = ''
for string in content_list:
string = re.sub(remove,'',string)
string = re.sub(douhao,'',string)
print(string)
3./text()獲取標籤的文字 //text() 獲取標籤以及子標籤的文字
content_list = div.xpath('.//div[@class="d_post_content j_d_post_content "]//text()').extract()
4.使用xpath('string(.)') ,這種方式來獲取所有文字
content = div.xpath('.//div[@class="d_post_content j_d_post_content "]').xpath('string(.)').extract()[0]+'\n'
相關文章
- 去html標籤,只取純文字HTML
- python爬蟲用bs4獲取標籤中間的文字內容以及標籤裡的屬性Python爬蟲
- 可視區、標籤寬高的獲取
- JavaScript 獲取指定標籤一級子元素JavaScript
- TextMeshPro - 富文字標籤
- 文字框和標籤
- 獲取文字的第a~b行文字
- html文字相關標籤HTML
- html文字修飾標籤HTML
- python中pyquery無法獲取標籤名的dom節點Python
- Flutter文字標籤TextTagWidget,搜尋記錄流式佈局顯示文字標籤Flutter
- selenium模組,web自動化,獲取標籤頁Web
- 使用selenium定位獲取標籤物件並提取資料物件
- Java 獲取Word批註所標記的文字和圖片Java
- 易優field獲取channelartlist標籤的欄位值-EyouCms手冊
- 關於qq音樂audio標籤裡src的獲取問題
- 易優Channel獲取欄目列表-Eyoucms標籤手冊
- 【Javascript】獲取選中的文字JavaScript
- [前臺]---js獲取input標籤中name相同的各個value值JS
- php去掉欄位文字的所有html標籤PHPHTML
- Android之去掉文字內容的HTML標籤AndroidHTML
- html5文字標籤HTML
- PHP獲取目錄中的全部內容RecursiveDirectoryIteratorPHP
- .NET Core 反射獲取所有控制器及方法上特定標籤反射
- VC MFC SDI/MDI框架各部分指標獲取方式框架指標
- javascript實現文字框標籤驗證JavaScript
- Vue入門指南-08 Vue中的標籤/如何獲取DOM元素(快速上手vue)Vue
- Spring - 獲取ApplicationContext的幾種方式SpringAPPContext
- vue裡a標籤從後臺獲取連結並實現跳轉Vue
- 前端與移動開發----webAPI----文字框事件,滑鼠事件,標籤屬性操作方式前端移動開發WebAPI事件
- HTML標籤(基本標籤的使用)HTML
- gitlab cicd中獲取tag值的方式Gitlab
- 織夢標籤標題關鍵詞描述的調取方法
- a標籤與Blob下載檔案的區別和獲取檔案下載進度
- Java獲取Class物件的方式和例項化物件的方式Java物件
- HTML字元實體與文字格式化標籤HTML字元
- A01-0020、修飾標籤 - 文字斜體i
- Espresso 如何獲取控制元件的實時文字?Espresso控制元件