網路爬蟲抓取邊界的法律與技術思考
網路爬蟲的應用場景多種多樣,典型場景之一是網路上搜尋引擎的後臺爬蟲,包括Baidu、Google、Bing等等。近來的一些關於網路爬蟲不合理使用的事件又引起了大家關注,一個關鍵的問題是網路爬蟲能抓取什麼資料,也就是網路爬蟲抓取邊界(我自己創造的詞)的界定問題。本文對當前一些觀點進行歸納總結,並從法律和技術兩個角度對資料抓取許可權、網站訪問方式和資料使用三個方面做了一些自己的思考,只是作為探討。
1、資料抓取許可權
從這個方面看,爬蟲可以抓取具有訪問許可權的資料,這應該是其邊界之一。訪問許可權可以從資料是否公開、頁面是否許可來判斷。爬蟲對不公開的資料當然不具備抓取許可權,但是公開或不公開的判斷依據並不容易界定,因為公開是有一定的範圍含義。
典型的案例是,“車來了”利用網路爬蟲技術抓取“酷米客”公司伺服器的公交車行駛資訊、到站時間等實時資料,此類資料只是在特定的APP中由特定人群使用,屬於不公開資料。未公開的資料,爬蟲程式就無權獲取,可能會被認定為非法獲取計算機資訊系統資料罪。
在《中華人民共和國刑法》第二百八十五條提到非法獲取計算機資訊系統資料罪,是指侵入國家事務、國防建設、尖端科學技術領域以外的計算機資訊系統或者採用其他技術手段,獲取該計算機資訊系統中儲存、處理或者傳輸的資料。這裡,“侵入”是指行為人採用強行突破安全工具等方法,在沒有得到許可時違背計算機資訊系統控制人或所有人意願進入其無權進入的計算機資訊系統中,常見的方式是利用他人網上認證資訊進入計算機資訊系統。典型的方式是破解App的加密演算法或網路互動協議、呼叫規則和引數,從而爬蟲突破許可權許可獲取資料。
抓取許可權的另一個界定方法是Robots協議,如果網站有設定Robots.txt檔案,則爬蟲應當依據該檔案決定某個特定的URL是否許可。該檔案的具體說明見文後面的連結。
2、爬蟲的訪問方式
這是指爬蟲訪問伺服器的方式,其邊界是爬蟲是否對伺服器的正常執行造成影響。如果網路爬蟲在短時間內頻繁訪問Web伺服器,通常是採用分散式、並行抓取等技術,從而導致伺服器不能正常執行,其客戶訪問變得很慢甚至無法響應。如果突破這個邊界,可能會涉及到破壞計算機資訊系統罪,目前也有一些爬蟲抓取被法院按這種型別處理。
與訪問方式有關的另一個邊界仍然是Robots協議,在該協議中定義了抓取延時、抓取時間段等引數,如果爬蟲沒有遵守這些約定,則可能導致伺服器不能正常執行。
3、資料使用
資料使用邊界是指抓取的資料是否用於商業用途、是否涉及版許可權定。以前發生的例子是,百度公司透過爬蟲技術從大眾點評網等網站獲取資訊,並將抓取的資訊直接提供給網路使用者(展示),最終被上海智慧財產權法院認定為不正當競爭行為,雖然百度公司的搜尋引擎抓取涉案資訊並不違反Robots協議。但是將將資料用於商業用途或展示傳播,很可能會涉及到不正當競爭,屬於利益衝突。
總的看來,網際網路公開資源爬取並不違法,網路爬蟲作為網際網路大資料採集的技術手段,本身具有 中立性。而抓取沒有許可權、沒有授權的資料,對伺服器正常執行產生影響,以及抓取後的資料用於商業用途、未經授權公開展示,應該是突破了爬蟲抓取的邊界。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69954927/viewspace-2664822/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 寫網路爬蟲的法律邊界爬蟲
- 再續:網路爬蟲的法律邊界和資料風險爬蟲
- 寫網路爬蟲的法律邊界:看看你夠在裡面待幾年?爬蟲
- 爬蟲技術抓取網站資料方法爬蟲網站
- Python爬蟲抓取技術的門道Python爬蟲
- 網路爬蟲之抓取郵箱爬蟲
- 技術的邊界
- 網路爬蟲技術及應用爬蟲
- 三種 Python 網路內容抓取工具與爬蟲Python爬蟲
- 爬蟲與反爬蟲技術簡介爬蟲
- 網路爬蟲技術是什麼,網路爬蟲的基本工作流程是什麼?爬蟲
- 爬蟲原理與資料抓取爬蟲
- 網路爬蟲技術手段有哪些?怎麼檢測是否為爬蟲IP?爬蟲
- 爬蟲抓取網頁的詳細流程爬蟲網頁
- 精通 Python 網路爬蟲:核心技術、框架與專案實戰Python爬蟲框架
- 網路爬蟲:使用Scrapy框架編寫一個抓取書籍資訊的爬蟲服務爬蟲框架
- 爬蟲抓取網頁資料原理爬蟲網頁
- [網路爬蟲]使用node.js cheerio抓取網頁資料爬蟲Node.js網頁
- 爬蟲技術:(JavaScript渲染)動態頁面抓取超級指南爬蟲JavaScript
- 網路爬蟲(一):抓取網頁的含義和URL基本構成爬蟲網頁
- 限制IP到全流程防控,講解網路爬蟲與技術反爬的動態攻防爬蟲
- [Python] 網路爬蟲與資訊提取(1) 網路爬蟲之規則Python爬蟲
- 網路爬蟲如何獲取IP進行資料抓取爬蟲
- 網路爬蟲技術Jsoup——爬到一切你想要的爬蟲JS
- wget 網頁爬蟲,網頁抓取工具wget網頁爬蟲
- 入門須知之網路爬蟲的基本流程及抓取策略爬蟲
- IPIDEA大盤點,藉助網路爬蟲抓取資料的作用?Idea爬蟲
- 爬蟲技術(二)-客戶端爬蟲爬蟲客戶端
- 網路爬蟲爬蟲
- 網路爬蟲小偏方:robots.txt快速抓取網站的小竅門爬蟲網站
- 爬蟲技術解析:如何有效地收集網路資料爬蟲
- 利用Python網路爬蟲抓取網易雲音樂歌詞Python爬蟲
- Google 爬蟲如何抓取 JavaScript 的?Go爬蟲JavaScript
- 網路爬蟲——爬蟲實戰(一)爬蟲
- 網路爬蟲的原理爬蟲
- 傻傻的網路爬蟲爬蟲
- 爬蟲抓取網路資料時經常遇到的六種問題爬蟲
- 爬蟲技術淺析爬蟲