使用Beautifulsoup去除特定標籤

RainbowJhon發表於2018-07-12

試用了Beautifulsoup,的確是個神器。 
在抓取到網頁時,會出現很多不想要的內容,例如<script>標籤,利用beautifulsoup可以很容易去掉。

-> soup = BeautifulSoup('<script>a</script>Hello World!<script>b</script>') 
-> [s.extract() for s in soup(‘script’)] 
-> soup 
Hello World!

如果有多個標籤也可以:

-> [s.extract() for s in soup([‘script’, ‘iframe’])]

相關文章