之前我們從網頁中提取重要資訊主要是通過自己編寫正規表示式完成的,但是如果你覺得正規表示式很好寫的話,那你估計不是地球人了,而且很容易出問題。下邊要介紹的Beautiful Soup就可以幫你簡化這些操作,更加方便的提取網頁中資訊。
Beautiful Soup 3 目前已經停止開發,官方推薦在現在的專案中使用Beautiful Soup 4
Beautiful Soup是有中文文件的,裡邊有詳細的介紹,文件地址是: https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/
1. 安裝
我是在centos7環境中,所以安裝過程比較簡單,直接可以通過yum來安裝:
sudo yum install python-beautifulsoup4
如果你安裝了pip,也可以通過它來下載:
sudo pip install beautifulsoup4
2.快速上手
其實其中文文件已經非常nice了。
點選這裡檢視: https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/