寫爬蟲是不違法的,違法的是你用資料幹了非法的事

王平發表於2019-11-01

這一陣看到一直有人在提爬蟲違法的事情,先把一些似是而非/模稜兩可的新聞和真假不明的對話一一列舉,後把違法事情描述成是因為寫了爬蟲導致的,然後把鍋甩給爬蟲,這是嚴重誤導人啊。

寫爬蟲不違法
文章中所舉新聞是某簡歷大資料公司非法獲取/售賣個人簡歷的事情。這個違法事情跟是不是用爬蟲抓的簡歷沒有因果關係。你找幾個人每天靠人肉去網上收集個人資訊,售賣這些資訊也是犯法;你就算是在垃圾堆裡翻到一堆人員資訊拿去賣也是犯法的。

因為這是侵犯公民個人資訊罪,竊取/提供/售賣/非法使用個人資訊(電話,住址,徵信等等)。我們目前看到的幾則新聞都跟個人徵信,個人隱私資料非法使用有關。尤其是P2P行業和為P2P行業提供徵信服務等技術支援的公司,最近處在風口浪尖,他們的公民隱私資料很多都來路不正,在暗網購買,灰色渠道收集,每個月給使用者傳送的營銷騷擾短息消耗都是數百萬人民幣。

就像我之前說的一樣,你開發網站/APP是不違法的,但是你用網站/APP非法收集使用者資訊,或做黃賭毒/灰色地帶的網站/APP就是違法。但你確不能說開發網站就是違法,取決你做的那件事情是否違法。

這一陣好幾家公司傳聞被抓的新聞有點多的原因,我個人認為是P2P行業最近在被嚴厲整治的原因。

最近看到不明真相的人都不敢用爬蟲抓資料了,我也是無語了。爬蟲無論是幾年前火熱的大資料時代還是這兩年熱炒的人工智慧都是不可或缺的。無論是做輿情/資料分析/模型訓練都需要大量資料,這些資料大多公司都需要靠外部抓取完成。

那我們在抓取/使用資料時應該注意些什麼,以免誤入雷區呢?
1.不要碰隱私/國防/科研相關資料。這個是大雷區。

2.如果實在要做跟個人相關的資料研究。要注意敏感資訊脫敏,去掉個人隱私方面的。

3.公開使用有智慧財產權的資料,會引起商業公司間的經濟糾紛。比如百度在百度地圖裡加上了大眾點評商店資訊,這就侵犯了點評的版權。這類問題大都是經濟糾紛或商業公司間的競爭。但如果你只是使用點評資料做研究分析,出行業分析報告/趨勢分析,這個問題就不大。

4.花20分鐘去讀下《網路安全法》
https://baike.baidu.com/item/中華人民共和國網路安全法/16843044

簡而言之,資料的兩大雷區就是隱私資料和版權資料。

之前寫過兩篇關於爬蟲的法律邊界文章:

寫網路爬蟲的法律邊界

再續:網路爬蟲的法律邊界和資料風險

猿人學banner宣傳圖

我的公眾號:猿人學 Python 上會分享更多心得體會,敬請關注。

***版權申明:若沒有特殊說明,文章皆是猿人學 yuanrenxue.com 原創,沒有猿人學授權,請勿以任何形式轉載。***

相關文章