要想學好爬蟲,必須把基礎打紮實,之前釋出了兩篇文章,分別是使用XPATH和requests爬取網頁,今天的文章是學習Beautiful Soup並通過一個例子來實現如何使用Beautiful Soup爬取網頁。
什麼是Beautiful Soup
- Beautiful Soup是一款高效的Python網頁解析分析工具,可以用於解析HTL和XML檔案並從中提取資料。
- Beautiful Soup輸入檔案的預設編碼是Unicode,輸出檔案的編碼是UTF-8。
- Beautiful Soup具有將輸入檔案自動補全的功能,如果輸入的HTML檔案的title標籤沒有閉合,則在輸出的檔案中會自動補全