“來我公司寫爬蟲嗎?會坐牢的那種!”
歡迎關注“技術領導力”部落格,每天早上8:30推送
“你交代一下,總共抓了多少資料,在哪些網站抓的,資料幹什麼用了?看看夠在裡面呆幾年。。。”警察語氣凝重地對張強說。
程式設計師張強(化名),回憶起這兩天來的經歷,仍心有餘悸。
張強,在一家大資料風控公司擔任爬蟲工程師,每當看到網上的段子,爬蟲學得好,監獄進得早,他總是莞爾一笑,心想:關我毛事啊,我只是個程式設計師,要坐牢也是老闆去坐吧,我又沒拿資料去賣錢。
時間回到9月,某一天的上午,張強和同事們像往常一樣上班,突然公司裡來了一群警察,要求所有人雙手離開電腦、手機等裝置,全部靠牆站立,工程師小哥哥、小姐姐們哪裡見過這個架勢,都懵了,只得照辦。
警察查封了公司,帶走了公司所有人,於是有了前面的問話。
01
我只是個寫爬蟲的,跟我有什麼關係?
許多程式設計師都有這樣的想法,技術是無罪的,我只是個打工的程式設計師,公司幹違法的業務,跟我沒關係。。。只能說,程式猿們真是圖羊圖森破了。
我們先來看幾個真實的法院判決案例:
案例一:資料擁有者有證據能夠舉證你的資料是抓取來的。如下,今日頭條對起訴上海晟品法院宣判結果。
(圖片文字來自中國判決文書網)
從文書描述來看,修改UA、修改device id、繞開網站訪問頻率控制這是寫爬蟲的基本,這些技術手法反而成了獲罪的依據。
案例二:抓取使用者社交資料,尤其是使用者隱私相關。
(圖片文字來自新浪網)
案例三:用爬蟲技術擾亂對方網站經營規則,且牟利。比如這個:
(圖片文字來自中國永嘉公號)
圖上描述做搜尋引擎排名的技術,其實就是利用爬蟲技術規模化的訪問網頁。
在我們通常的認知裡,因為網際網路推崇分享精神,所以認為只要是網路公開資料就可以抓取,但是通過上面的案例來看,有幾個禁忌,抓取的資料最好不要直接商用,涉及社交資訊/使用者資訊要謹慎。
老闆交代你抓取敏感任務時,讓老闆先看下刑法第285條。公司從事違法業務,不代表個人行為就沒事,只是還沒入有關部門的法眼。
02
9月成為大資料風控行業的“黑暗月”
同盾科技爬蟲部門已解散。據報導,同盾科技爬蟲部門已解散,員工集體待崗,並被建議不要離開杭州,否則有被抓風險;由於局面失控,蔣韜已出國避風頭。知情人士透露,魔蠍科技與新顏科技近期被查系同盾科技舉報。之所以舉報魔蠍科技,意在打擊其背後的邦盛科技,後者是同盾科技的競爭對手。
緊接著,同盾科技釋出“闢謠宣告”,稱蔣韜一直在國內照常處理公司事務;信川科技於2018年開始逐步調整業務,目前已停止全部相關業務,員工調至其他崗位;舉報傳言是無中生有,惡意中傷。
巧達科技被查封,全體員工被警方帶走。有訊息稱招聘資料公司巧達科技被查封,全體員工被警方帶走。一位巧達科技前員工告訴筆者,“(最近)陸續有HR等非核心員工回家,但核心高管依然失聯中。”多位業內人士和律師認為,巧達科技出事可能與其未經授權獲取和使用簡歷、“販賣”簡歷資訊等涉嫌侵犯使用者隱私權、侵犯公民個人資訊的行為有關。
公開資料顯示,巧達科技成立於2014年7月,號稱擁有中國最大的簡歷資料庫,巧達科技資料庫有2.2億自然人的簡歷、簡歷累計總數37億份。此外,巧達科技還有超過10億份通訊錄,也就是說,它掌握了超過57%的中國人的資訊。
這些獲取渠道並不正規的資料為巧達科技帶來了過億的收入。2016年,巧達科技全年收入1.2億元,淨利潤4800萬元;2017年,巧達科技全年收入4.11億元,淨利潤1.86億元,淨利潤率超過45%。
魔蠍科技負責人及員工被抓捕,涉案人員120餘名。9月6日,網友TonyStark爆料稱,杭州西湖分局集結200餘名警力,對涉嫌侵犯公民個人資訊的魔蠍科技進行統一抓捕。截止目前抓獲涉案人員120餘名,凍結資金2300餘萬元,勘驗固定伺服器1000餘臺,扣押電腦100多臺,手機200餘部。案件正在進一步偵辦中。
隨後,杭州市公安局西湖區分局向媒體證實,魔蠍科技的相關人員已經被經偵大隊帶走調查。
03
訊號明顯:“灰色”地帶的監管力度在加強!
有業內人士分析表示,爬蟲並不犯法,而是爬出後的資訊如何使用,存在隱私侵權、資料濫用等風險,特別是在資料的授權、來源、用途十分不透明的情況下。
西南財經大學普惠金融與智慧金融研究中心副主任陳文表示:“風控資料公司因為擁有使用者的資訊、關係圖,在獲客、營銷、催收階段都能助力現金貸機構。但資料來源大多處於灰色地域,對於個人隱私缺乏保護,存在廣泛的資料濫用問題。”
針對這些問題,監管也在路上。今年5月28日,國家網際網路資訊辦公室就《資料安全管理辦法(徵求意見稿)》(以下簡稱《辦法》)公開徵求意見。對於網路運營者超出運營需要收集個人資訊的行為,《辦法》作出了限制性規定,對“網路產品核心業務功能執行的個人資訊”以外的資訊,網路運營者不得因個人資訊主體未同意收集而拒絕提供核心業務功能服務。
針對網路爬蟲等抓取網頁的自動化手段,《辦法》明確應不妨礙網站正常執行,並列明具體的訪問收集流量不得超過網站日均流量的1/3。對資料洩露才確定網路安全負責人的問題,其明確資料安全責任人的任職要求,突出網路運營者主要負責人、資料安全責任人的姓名及聯絡方式等。
04
使用爬蟲技術的公司,觸犯了什麼法律?
對爬蟲技術應用不當的企業,可能涉及的罪名有三個:
一、侵犯公民個人資訊罪
1.爬取的資料資訊屬於公民個人資訊範疇
公民個人資訊,是指以電子或者其他方式記錄的,能夠單獨或者與其他資訊結合識別特定自然人身份,或者反映特定自然人活動情況的各種資訊,包括姓名、身份證件號碼、通訊通訊聯絡方式、住址、賬號密碼、財產狀況、行蹤軌跡等。
2.利用爬蟲技術獲取的公民個人資訊為非法獲取的
利用爬蟲技術收集公民個人資訊資料,應當獲得被收集人的同意,尤其是在資料中包含身份證號、信用資訊等敏感資料的情況下,還需要獲得明示同意。同時,利用網路漏洞非法下載、非法購買等行為,都屬於“非法獲取”公民個人資訊。
3.相關法律依據:《刑法》第253條
【侵犯公民個人資訊罪】違反國家有關規定,向他人出售或者提供公民個人資訊,情節嚴重的,處三年以下有期徒刑或者拘役,並處或者單處罰金;情節特別嚴重的,處三年以上七年以下有期徒刑,並處罰金。
單位犯前三款罪的,對單位判處罰金,並對其直接負責的主管人員和其他直接責任人員,依照該款的規定處罰。
敲黑板劃重點,上面標紅加粗的就是寫爬蟲程式設計師也在坐牢的法律依據。
二、構成非法獲取計算機資訊系統資料罪
1.利用爬蟲技術侵入計算機資訊系統獲取資料,或採用其他技術手段獲取計算機資訊系統資料
任何組織或個人不得危害計算機資訊系統安全;不得破壞計算機及其相關的配套的裝置、設施(含網路)安全,破壞其執行環境安全、資訊保安,影響其功能正常發揮。
因此企業若在爬取資料時,存在危害計算機資訊系統安全的行為,包括破解被爬企業的防抓取措施、加密演算法、技術保護措施等,則很有可能被認定為“侵入或以其他技術手段獲取計算機資訊系統資料”。
2. 相關法律依據:《刑法》第285條
【非法侵入計算機資訊系統罪】違反國家規定,侵入國家事務、國防建設、尖端科學技術領域的計算機資訊系統的,處三年以下有期徒刑或者拘役。
【提供侵入、非法控制計算機資訊系統程式、工具罪】提供專門用於侵入、非法控制計算機資訊系統的程式、工具,或者明知他人實施侵入、非法控制計算機資訊系統的違法犯罪行為,而為其提供程式、工具,情節嚴重的,依照前款的規定處罰。
單位犯前三款罪的,對單位判處罰金,並對其直接負責的主管人員和其他直接責任人員,依照該款的規定處罰。
看到了吧!別以為寫了個NB的爬蟲破解程式丟到GitHub上,就沒事。如果被人用來從事非法勾當,你也是要坐牢滴。
三、非法侵入計算機資訊系統罪
1.提供資料資訊的網站為國家事務、國防建設、尖端科學技術領域的計算機資訊系統;
高頻使用的網站,如“國家企業信用資訊公示系統”“中國裁判文書網”“中國執行資訊公開網”以及各地政府網站等,都屬於“國家事務”網站的法律範疇內。
2.對計算機資訊系統具有侵入行為
(1)只要有侵入行為,而不論侵入行為的結果。
(2)一般法院在認定上主要有兩種方式:1)以非法手段登入網站,獲取原本不該有許可權獲取的資料資訊;2)將惡意程式、非法檔案等傳送至網站,對網站的正常執行產生影響。
(3)在爬取此類網站的公開資料時,不存在“侵入”計算機資訊系統的情形。但當批量爬取資料資訊時,需特別關注是否會對網站的正常執行產生影響,切不可逾越紅線。
各位程式設計師兄弟姐妹們,仔細讀完以上內容,判斷下所在公司的合法性,該做準備的要趁早準備,不要抱有僥倖之心,更不要覺得老闆“後臺”硬沒事,真要出事了你可能就是主犯,老闆卻逍遙自在。
05
爬蟲程式設計師如何避免牢獄之災?
一、侵犯公民個人資訊罪,合規建議:
利用爬蟲技術獲取公民個人資訊的,應該嚴格遵守相關法律、行政法規、部門規章的規定,否則極易落入“非法獲取”公民個人資訊的法律風險範疇。
此外,關於在公民個人資訊已合法公開的情況下,利用爬蟲技術對其進行抓取是否構成非法獲取這一問題,暫時沒有明確答案,但《民法典人格權編》第816條寫到:行為人收集、處理自然人自行公開的或者其他已經合法公開的資訊不承擔民事責任,但是該自然人明確拒絕或者處理該資訊侵害其重大利益的除外。
可以明確的是,收集已合法公開的個人資訊應不屬於違法,但在立法尚不完善的階段,仍建議謹慎使用爬蟲技術抓取公開的個人資訊。
二、非法獲取計算機資訊系統資料罪,合規建議:
嚴格禁止通過技術手段繞過伺服器的訪問限制,或破解被爬網站為保護資料而採取的加密演算法及技術保護措施,從而對被爬網站受保護的計算機資訊系統中的資料進行爬取。
若被爬網站設定了獲取資料資訊的措施,爬蟲企業應避免通過偽造實名認證或竊取賬號密碼、內部許可權的形式獲取資料。
如前文的判決案例,通過技術手段,修改UA、修改device id、繞開網站訪問頻率控制等,進行資料抓取,如果被定罪,這些技術手段都是違法行為的佐證。
三、非法侵入計算機資訊系統罪,合規建議:
對大資料公司,特別是大資料風控企業來說,獲取“裁判文書網”“執行資訊公開網”的資料非常普遍且重要,但爬取這類國家事務網站的資訊時應當尤為審慎,特別是在網站已採取相關“反爬措施”的情況下,仍強行惡意突破防護措施爬取資料,對網站執行造成影響的,均可能構成本罪。
除上述法律風險以外,利用爬蟲技術手段還可能產生構成不正當競爭、侵犯資訊網路傳播權等法律風險。
06
寫在末尾的話
不論你所在公司屬於哪個行業,請謹記以下三點:
瞭解規則,敬畏法律。中國程式設計師對於法律的集體不敬畏,已經到了令人咋舌的程度。某涉事程式設計師,堅持認為技術無罪,拒絕配合警方調查,錯過了取保侯審的機會,導致被拘留數月,等待判決。
弄清楚公司業務的合法性。之前有P2P業務的集體爆雷,再到被全面禁止ICO業務,還有線上博彩等等,許多程式設計師醉心專研技術,缺乏法律常識,更缺乏自我保護意識,糊里糊塗成為某些黑心老闆的替罪羊。
積極配合警方調查。實事求是地說自己的問題,把客觀證據準備好,積極提供給辦案機關;切忌滿口“我認為”“我感覺”“我猜測”,對於自己主觀判斷的東西,儘量思考清楚。
最後,願每個程式設計師都能用技術去改變世界,讓我們的生活變得更加美好!
-End-
想看更多大廠技術乾貨分享?
關注“技術領導力”公眾號
相關文章
- 你有自己寫過爬蟲的程式嗎?說說你對爬蟲和反爬蟲的理解?爬蟲
- python就是爬蟲嗎-python就是爬蟲嗎Python爬蟲
- 快速上手——我用scrapy寫爬蟲(一)爬蟲
- 寫網路爬蟲程式的三種難度爬蟲
- 天天聊爬蟲,今天我們來聊聊反爬爬蟲
- 使用python的scrapy來編寫一個爬蟲Python爬蟲
- 寫爬蟲,不會正則怎麼行?爬蟲
- 為什麼使用Scrapy框架來寫爬蟲?框架爬蟲
- 我的 Python 網路爬蟲直播分享要來了!Python爬蟲
- 寫爬蟲時常見的五種字串編碼特徵爬蟲字串編碼特徵
- 你真的會用搜尋引擎嗎?能寫出好論文、找到好工作的那種
- python爬蟲常見的那點問題!Python爬蟲
- 不用寫程式碼的爬蟲爬蟲
- 新手寫的視訊爬蟲爬蟲
- 我常用的puppeteer爬蟲api爬蟲API
- 寫個爬蟲唄爬蟲
- 只因寫了一段爬蟲,公司200多人被抓!爬蟲
- 來玩遊戲嗎?能線上陪玩的那種。遊戲
- 面試官,我會寫二分查詢法了!對,沒有 bug 的那種!面試
- 分散式爬蟲很難嗎?用Python寫一個小白也能聽懂的分散式知乎爬蟲分散式爬蟲Python
- Python爬蟲的兩套解析方法和四種爬蟲實現Python爬蟲
- Python爬蟲的N種姿勢Python爬蟲
- 就想寫個爬蟲,我到底要學多少東西啊?爬蟲
- 使用JavaScript編寫的爬蟲程式JavaScript爬蟲
- 工程化爬蟲的寫法爬蟲
- 我的第一個 scrapy 爬蟲爬蟲
- 什麼是Python爬蟲?python爬蟲入門難嗎?Python爬蟲
- python爬蟲是什麼?學習python爬蟲難嗎Python爬蟲
- 六種高效爬蟲框架爬蟲框架
- 當我遇到了爬蟲爬蟲
- 3 行寫爬蟲 - 使用 Goribot 快速構建 Golang 爬蟲爬蟲Golang
- Python爬蟲:手把手教你寫迷你爬蟲架構Python爬蟲架構
- 我去!爬蟲遇到字型反爬,哭了爬蟲
- 那些年,我爬過的北科(序)——我和爬蟲的緣分爬蟲
- 我爬取了爬蟲崗位薪資,分析後發現爬蟲真香爬蟲
- python網路爬蟲合法嗎Python爬蟲
- 爬蟲受限的三種解決方案爬蟲
- 防止爬蟲被限制的三種方法爬蟲