網路爬蟲抓取邊界的法律與技術思考

深圳易海聚發表於2019-11-19

      網路爬蟲的應用場景多種多樣,典型場景之一是網路上搜尋引擎的後臺爬蟲,包括Baidu、Google、Bing等等。近來的一些關於網路爬蟲不合理使用的事件又引起了大家關注,一個關鍵的問題是網路爬蟲能抓取什麼資料,也就是網路爬蟲抓取邊界(我自己創造的詞)的界定問題。本文對當前一些觀點進行歸納總結,並從法律和技術兩個角度對資料抓取許可權、網站訪問方式和資料使用三個方面做了一些自己的思考,只是作為探討。


1、資料抓取許可權

       從這個方面看,爬蟲可以抓取具有訪問許可權的資料,這應該是其邊界之一。訪問許可權可以從資料是否公開、頁面是否許可來判斷。爬蟲對不公開的資料當然不具備抓取許可權,但是公開或不公開的判斷依據並不容易界定,因為公開是有一定的範圍含義。

       典型的案例是,“車來了”利用網路爬蟲技術抓取“酷米客”公司伺服器的公交車行駛資訊、到站時間等實時資料,此類資料只是在特定的APP中由特定人群使用,屬於不公開資料。未公開的資料,爬蟲程式就無權獲取,可能會被認定為非法獲取計算機資訊系統資料罪。

      在《中華人民共和國刑法》第二百八十五條提到非法獲取計算機資訊系統資料罪,是指侵入國家事務、國防建設、尖端科學技術領域以外的計算機資訊系統或者採用其他技術手段,獲取該計算機資訊系統中儲存、處理或者傳輸的資料。這裡,“侵入”是指行為人採用強行突破安全工具等方法,在沒有得到許可時違背計算機資訊系統控制人或所有人意願進入其無權進入的計算機資訊系統中,常見的方式是利用他人網上認證資訊進入計算機資訊系統。典型的方式是破解App的加密演算法或網路互動協議、呼叫規則和引數,從而爬蟲突破許可權許可獲取資料。


     抓取許可權的另一個界定方法是Robots協議,如果網站有設定Robots.txt檔案,則爬蟲應當依據該檔案決定某個特定的URL是否許可。該檔案的具體說明見文後面的連結。


2、爬蟲的訪問方式

       這是指爬蟲訪問伺服器的方式,其邊界是爬蟲是否對伺服器的正常執行造成影響。如果網路爬蟲在短時間內頻繁訪問Web伺服器,通常是採用分散式、並行抓取等技術,從而導致伺服器不能正常執行,其客戶訪問變得很慢甚至無法響應。如果突破這個邊界,可能會涉及到破壞計算機資訊系統罪,目前也有一些爬蟲抓取被法院按這種型別處理。

      與訪問方式有關的另一個邊界仍然是Robots協議,在該協議中定義了抓取延時、抓取時間段等引數,如果爬蟲沒有遵守這些約定,則可能導致伺服器不能正常執行。


3、資料使用

      資料使用邊界是指抓取的資料是否用於商業用途、是否涉及版許可權定。以前發生的例子是,百度公司透過爬蟲技術從大眾點評網等網站獲取資訊,並將抓取的資訊直接提供給網路使用者(展示),最終被上海智慧財產權法院認定為不正當競爭行為,雖然百度公司的搜尋引擎抓取涉案資訊並不違反Robots協議。但是將將資料用於商業用途或展示傳播,很可能會涉及到不正當競爭,屬於利益衝突。


       總的看來,網際網路公開資源爬取並不違法,網路爬蟲作為網際網路大資料採集的技術手段,本身具有 中立性。而抓取沒有許可權、沒有授權的資料,對伺服器正常執行產生影響,以及抓取後的資料用於商業用途、未經授權公開展示,應該是突破了爬蟲抓取的邊界。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69954927/viewspace-2664822/,如需轉載,請註明出處,否則將追究法律責任。

相關文章