使用Beautifulsoup去除特定標籤
試用了Beautifulsoup,的確是個神器。
在抓取到網頁時,會出現很多不想要的內容,例如<script>
標籤,利用beautifulsoup可以很容易去掉。
->
soup = BeautifulSoup('<script>a</script>Hello World!<script>b</script>')
-> [s.extract() for s in soup(‘script’)]
-> soup
Hello World!
如果有多個標籤也可以:
-> [s.extract() for s in soup([‘script’, ‘iframe’])]
相關文章
- a標籤去除原始樣式
- java去除xml檔案中的標籤JavaXML
- dedeCMS標籤[field:typedir/]中{cmspath}的去除辦法
- HTML標籤(基本標籤的使用)HTML
- html標籤使用HTML
- 利用正規表示式去除所有html標籤,只保留文字HTML
- marquee 標籤的使用
- Python BeautifulSoup 使用Python
- .NET Core 反射獲取所有控制器及方法上特定標籤反射
- PbootCMS可使用的列表標籤內容tags標籤呼叫boot
- <base href=““/> 標籤的使用
- HTML常用標籤的使用HTML
- PHP正規表示式抓取某個標籤的特定屬性值的方法PHP
- properties標籤和typeAliases標籤
- 11 replace-method標籤使用
- 10 lookup-method標籤使用
- Android shape與selector標籤使用Android
- JavaScript各類標籤的使用JavaScript
- HTML中的標籤的使用HTML
- 21.8 Python 使用BeautifulSoup庫Python
- BeautifulSoup的使用姿勢
- js--標籤語法的使用JS
- 如何使用 metaflac 管理音樂標籤
- angular中使用a標籤的錨點Angular
- Mybatis的 foreach 標籤使用方法.MyBatis
- VOC標籤轉化為YOLO標籤YOLO
- 前端meta標籤內容定義及使用說明,meta詳細說明,meta標籤使用前端
- BeautifulSoup4 find_all搜尋包含指定文字內容的標籤返回空list的問題
- css標籤選擇器的使用注意CSS
- 前端使用a標籤啟動本地.exe程式前端
- JSTL各個標籤的解析以及使用JS
- JSTL的標籤及使用,包含例項JS
- 關於a標籤target=“_blank"使用rel=noopenerOOP
- base標籤
- JSTL標籤JS
- html標籤HTML
- Git 標籤Git
- HTML <a> 標籤HTML