再續:網路爬蟲的法律邊界和資料風險

王平發表於2018-12-24

上一篇《網路爬蟲的法律邊界》引起了討論和爭議,不少朋友問我,本篇試著再闡述一下。一些緣由和細節可以看上文,本篇接著上文說。

爬蟲要注意法律風險

資料抓取的門檻越來越低,會點程式,或使用網路工具都可以薅點資料,新入行了不少爬蟲選手,但是對抓取使用資料的法律風險可能缺少認識。尤其是從去年的《網路安全法》實施開始,被新聞公開報導的相關法律訴訟已有好幾起。

有人會爭議網際網路本質是鼓勵分享,很多UGC的網站內容還是使用者貢獻的,網路公開資料應該都可以使用。

我也希望是這樣,但現實不是這樣。

所以抓取資料前你最好看下被抓物件的智慧財產權申明,如果你是公司職員也關心下公司讓你抓取資料的用途,多少了解下潛在風險。

以下是幾個典型的爬蟲選手愛光顧的網站智慧財產權申明。

大眾點評智慧財產權申明

經常抓點評資料的小哥們看下,上述是點評網的智慧財產權申明:使用者釋出的商店點評,評論,圖片智慧財產權屬於大眾點評,未經許可,任何使用都是非法。

微博智慧財產權申明

上述是微博的申明,未經書面許可,任何抓取微博內容都是非法抓取。爬蟲老哥們有哪一個沒抓過微博的?

窮遊智慧財產權申明

上述是窮遊網的知識產品申明,使用者釋出的旅遊攻略所有權是窮遊網的。

上述是比較典型的幾個UGC網站,做點評的,做社交的,做攻略的。創業公司資料冷啟動時,有幾個沒有抓過他們家的資料?

這個潛在風險是存在的,就看你有沒被對方頂上。

以下是幾個法院判決案例:

大眾點評訴百度審判結果

大眾點評訴訟百度地圖非法使用點評資料,百度敗訴,賠錢。

酷米客訴車來了結果
來自網易新聞

酷米客狀告車來了非法抓取他家的公交資訊,車來了敗訴,車來了老闆被三年刑期緩刑。

資料堂訴訟結果
來自金融界百家號

新三板上市公司“資料堂”,公司業務是資料標註和資料交易,他家也是大量抓取資料。後涉嫌倒賣使用者資料,公司高管被起訴。

從上面可以看出:

大公司鬥法輸了賠錢,小公司輸了是人身自由。

還是那句,爬蟲有風險,開爬要謹慎。

什麼樣的行為容易踩雷:

  • 雙方業務是競爭關係,比如:上述酷米客和車來了都是提供公交資訊查詢。
  • 有商業利益關係。比如:上述點評網和百度地圖。

  • 涉及使用者隱私。

  • 你的爬蟲擾亂了對方的業務,遭對方狠,比如前一篇所講的刷搜尋引擎排名。

法院的定罪依據條例有哪些:

  • 《刑法》第285條,非法獲取計算機資訊系統資料罪。
    最高處七年有期徒刑。比如 上述車來了案例。
  • 《刑法》第286條,破壞計算機資訊系統罪。
    最高處五年以上。比如為了抓取資料,破解登陸密碼,反編譯APP。

  • 《網路安全法》,倒賣隱私資料鏈條上的一環。
    你把抓取的資料倒賣給壞人,壞人拿資料做了壞事,你就是這其中一環。

以下是一些引起爭議的話題,我以問答對的形式展開。

問:百度,谷歌是世界最大的爬蟲工廠,他們為什麼沒遭殃呢?

答:這涉及商業利益,使用者在搜尋引擎點選連結後,流量會引回被抓取網站,某方面來說是一個雙贏。對方沒被必要去搞百度。

谷歌在歐洲其實遇到了一些問題,歐洲一些新聞媒體認為谷歌抓取他們的內容,谷歌應該向他們支付費用。

今日頭條之前把抓取的新聞內容留在自己網站上,而不是跳轉回對方網站,這其實是違法的,所以也遭遇了十幾起的訴訟,這主要還是商業利益問題。現在內容創業你抓取的內容,最好只提供摘要,全文連結要跳回對方網站。

問:公司讓我抓的,跟我沒關係?

答:錯!上圖。

刑法第285條解釋

《刑法》第285條解釋,對公司處罰金,直接主管和直接人員也game over。

所以公司的損失是錢,你和專案主管的損失可能是人身自由。

問:網際網路是公開的,UGC內容為什麼不能用?

答:上面說UGC網站的智慧財產權已經申明清楚了,而我們在註冊這些網站賬號時,你也就預設認可了這個協議,這是受法律認可的。

問:robots.txt能限制爬蟲嗎?

答:不能。那只是一個不成文的約定,一沒有法律效應,二也沒有強制作用。道德感強點的也許會遵守robots.txt規定。就算你在robots.txt裡寫明瞭不允許搜尋引擎爬蟲抓取,搜尋公司照樣若如無人之地來光顧你的網站。

而且,現在一些搜尋公司的爬蟲已經不會把user-agent都寫成Spider字樣了,有的user-agent都是正常瀏覽器的頭資訊,有興趣的,可以看下你家網站web伺服器的訪問日誌IP記錄。

問:提供爬蟲工具的有風險嗎?

答:有!上圖。

刑法第285條對提供工具的處罰依據

還是《刑法》第285條,提供工具的,一樣有上述風險。比如網路上某某爬蟲軟體,可以直接幫助抓取很多網站資料,萬一使用資料的人幹出驚天大案,這有連帶責任。

但上述都是商業公司的商業競爭行為,相互鬥法,個人爬蟲愛好者的風險較小。但隨著資料安全,網路安全,使用者隱私方面的法律越來越健全,很容易踩雷。

但你要遵守一個規則:小爬怡情,大爬over。

還是那句:不要直接商用抓取的資料,不要涉及使用者隱私資料,

在老闆讓你抓資料前,先把這篇文章留給他看下。

注:所寫文章的初衷是希望爬蟲選手們瞭解抓取和運用資料的潛在風險。

注:若你涉及相關上述法律問題,請諮詢專業的智慧財產權律師,上文不是專業建議。

猿人學banner宣傳圖

我的公眾號:猿人學 Python 上會分享更多心得體會,敬請關注。

***版權申明:若沒有特殊說明,文章皆是猿人學 yuanrenxue.com 原創,沒有猿人學授權,請勿以任何形式轉載。***

相關文章