簡述
以下的程式碼是使用python實現的網路爬蟲,抓取動態網頁hb.qq.com/baoliao/。此網頁中的最新、精華下面的內容是由JavaScript動態生成的。審查網頁元素與網頁原始碼是不同。

本人對於Python學習建立了一個小小的學習圈子,為各位提供了一個平臺,大家一起來討論學習Python。歡迎各位到來Python學習群:960410445一起討論視訊分享學習。Python是未來的發展方向,正在挑戰我們的分析能力及對世界的認知方式,因此,我們與時俱進,迎接變化,並不斷的成長,掌握Python核心技術,才是掌握真正的價值所在。

以上是網頁原始碼


以上是審查網頁元素
所以此處不能簡單的使用正規表示式來獲取內容。
以下是完整的獲取內容並儲存到資料庫的思路及原始碼。
實現思路:
抓取實際訪問的動態頁面的url – 使用正規表示式獲取需要的內容 – 解析內容 – 儲存內容
以上部分過程文字解釋:
抓取實際訪問的動態頁面的url:
在火狐瀏覽器中,右鍵開啟外掛 使用**firebug審查元素** *(沒有這項的,要安裝firebug外掛),找到並開啟**網路(NET)**標籤頁。重新載入網頁,獲得網頁的響應資訊,包括連線地址。每個連線地址都可以在瀏覽器中開啟。本網站的動態網頁訪問地址是:
http://baoliao.hb.qq.com/api/report/NewIndexReportsList/cityid/18/num/20/pageno/1?callback=jQuery183019859437816181613_1440723895018&_=1440723895472
原始碼
注意:使用python的版本是 2.7
