使用python進行web抓取

發表於2016-03-21

本文摘要自Web Scraping with Python – 2015

書籍下載地址:https://bitbucket.org/xurongzhong/python-chinese-library/downloads

原始碼地址:https://bitbucket.org/wswp/code

演示站點:http://example.webscraping.com/

演示站點程式碼:http://bitbucket.org/wswp/places

推薦的python基礎教程: http://www.diveintopython.net

HTML和JavaScript基礎:

http://www.w3schools.com

web抓取簡介

  • 為什麼要進行web抓取?

網購的時候想比較下各個網站的價格,也就是實現惠惠購物助手的功能。有API自然方便,但是通常是沒有API,此時就需要web抓取。

  • web抓取是否合法?

抓取的資料,個人使用不違法,商業用途或重新發布則需要考慮授權,另外需要注意禮節。根據國外已經判決的案例,一般來說位置和電話可以重新發布,但是原創資料不允許重新發布。

更多參考:

http://www.bvhd.dk/uploads/tx_mocarticles/S_-_og_Handelsrettens_afg_relse_i_Ofir-sagen.pdf

http://www.austlii.edu.au/au/cases/cth/FCA/2010/44.html

http://caselaw.findlaw.com/us-supreme-court/499/340.html

  • 背景研究

robots.txt和Sitemap可以幫助瞭解站點的規模和結構,還可以使用谷歌搜尋和WHOIS等工具。

比如:http://example.webscraping.com/robots.txt

更多關於web機器人的介紹參見 http://www.robotstxt.org
Sitemap的協議: http://www.sitemaps.org/protocol.html,比如:

站點地圖經常不完整。

站點大小評估:
通過google的site查詢 比如:site:automationtesting.sinaapp.com

站點技術評估:

分析網站所有者:

  • 抓取第一個站點

簡單的爬蟲(crawling)程式碼如下:

可以基於錯誤碼重試。HTTP狀態碼:https://tools.ietf.org/html/rfc7231#section-6。4**沒必要重試,5**可以重試下。

維護成本比較高。
Beautiful Soup:

完整的例子:

Lxml基於 libxml2(c語言實現),更快速,但是有時更難安裝。網址:http://lxml.de/installation.html。

lxml的容錯能力也比較強,少半邊標籤通常沒事。

下面使用css選擇器,注意安裝cssselect。

在 CSS 中,選擇器是一種模式,用於選擇需要新增樣式的元素。

“CSS” 列指示該屬性是在哪個 CSS 版本中定義的。(CSS1、CSS2 還是 CSS3。)

選擇器 例子 例子描述 CSS
.class .intro 選擇 class=”intro” 的所有元素。 1
#id #firstname 選擇 id=”firstname” 的所有元素。 1
* * 選擇所有元素。 2
element p 選擇所有元素。 1
element,element div,p 選擇所有 

元素和所有元素。

1
element element div p 選擇 

元素內部的所有元素。

1
element>element div>p 選擇父元素為 

元素的所有元素。

2
element+element div+p 選擇緊接在 

元素之後的所有元素。

2
[attribute] [target] 選擇帶有 target 屬性所有元素。 2
[attribute=value] [target=_blank] 選擇 target=”_blank” 的所有元素。 2
[attribute~=value] [title~=flower] 選擇 title 屬性包含單詞 “flower” 的所有元素。 2
[attribute|=value] [lang|=en] 選擇 lang 屬性值以 “en” 開頭的所有元素。 2
:link a:link 選擇所有未被訪問的連結。 1
:visited a:visited 選擇所有已被訪問的連結。 1
:active a:active 選擇活動連結。 1
:hover a:hover 選擇滑鼠指標位於其上的連結。 1
:focus input:focus 選擇獲得焦點的 input 元素。 2
:first-letter p:first-letter 選擇每個元素的首字母。 1
:first-line p:first-line 選擇每個元素的首行。 1
:first-child p:first-child 選擇屬於父元素的第一個子元素的每個元素。 2
:before p:before 在每個元素的內容之前插入內容。 2
:after p:after 在每個元素的內容之後插入內容。 2
:lang(language) p:lang(it) 選擇帶有以 “it” 開頭的 lang 屬性值的每個元素。 2
element1~element2 p~ul 選擇前面有元素的每個 
    元素。
3
[attribute^=value] a[src^=”https”] 選擇其 src 屬性值以 “https” 開頭的每個 元素。 3
[attribute$=value] a[src$=”.pdf”] 選擇其 src 屬性以 “.pdf” 結尾的所有 元素。 3
[attribute*=value] a[src*=”abc”] 選擇其 src 屬性中包含 “abc” 子串的每個 元素。 3
:first-of-type p:first-of-type 選擇屬於其父元素的首個元素的每個 

元素。

3
:last-of-type p:last-of-type 選擇屬於其父元素的最後元素的每個 

元素。

3
:only-of-type p:only-of-type 選擇屬於其父元素唯一的元素的每個 

元素。

3
:only-child p:only-child 選擇屬於其父元素的唯一子元素的每個元素。 3
:nth-child(n) p:nth-child(2) 選擇屬於其父元素的第二個子元素的每個元素。 3
:nth-last-child(n) p:nth-last-child(2) 同上,從最後一個子元素開始計數。 3
:nth-of-type(n) p:nth-of-type(2) 選擇屬於其父元素第二個元素的每個 

元素。

3
:nth-last-of-type(n) p:nth-last-of-type(2) 同上,但是從最後一個子元素開始計數。 3
:last-child p:last-child 選擇屬於其父元素最後一個子元素每個元素。 3
:root :root 選擇文件的根元素。 3
:empty p:empty 選擇沒有子元素的每個元素(包括文字節點)。 3
:target #news:target 選擇當前活動的 #news 元素。 3
:enabled input:enabled 選擇每個啟用的 <input>元素。 3
:disabled input:disabled 選擇每個禁用的 <input>元素 3
:checked input:checked 選擇每個被選中的 <input>元素。 3
:not(selector) :not(p) 選擇非<p>元素的每個元素。 3
::selection ::selection 選擇被使用者選取的元素部分。 3

CSS 選擇器參見:http://www.w3school.com.cn/cssref/css_selectors.ASP 和 https://pythonhosted.org/cssselect/#supported-selectors。

下面通過提取如下頁面的國家資料來比較效能:

比較程式碼:

Windows執行結果:

Linux執行結果:

其中 re.purge() 使用者清正規表示式的快取。

推薦使用基於Linux的lxml,在同一網頁多次分析的情況優勢更為明顯。

相關文章