大家好,我是程式設計師魚皮。
世風日下,人心不古。我們的程式設計師面試刷題網站
網站有爬蟲是很正常的一件事,說明 “攻擊者” 對我們網站內容的認可,而且自己學習用的話偷偷爬一爬咱也能理解。前提是別影響咱系統的正常執行、別被我們的監控系統發現。
我們確實發現了部分離譜的使用者,不到一個小時就把我們幾千道題看完了?你特麼量子波動速讀啊?!
上面這些其實都還好,系統自動就給封號了。但最近我們接到正義的使用者反饋,最近有幾隻程式設計師博主公開 直播教別人 怎麼爬我們的面試鴨網站,這屬實是有點過分了吧?
有點兒法律常識的程式設計師應該都知道,爬蟲是有法律風險的行為,可能會涉及到侵犯版權、違反網站的使用條款、侵犯隱私。而且如果請求頻率過高,對系統造成了壓力,還可能涉及到計算機系統破壞、違反計算機濫用法的法律風險!
所以才有了下面這個表情包:
在未經原站長授權的情況下,教別人去爬取別人的網站,這性質就更不一樣了,而且還是直播去教,生怕別人不知道你是誰麼? 可邢,太可邢了!
而且最讓我生氣的是,有些博主教爬蟲都不教明白,教爬蟲的第一課必然要先讓大家瞭解 爬蟲的法律合規性和法律風險 。應該告訴大家相關法律法規、遵守網站的使用協議和版權問題、遵守網站的 robots.txt 檔案、確保爬取行為不侵犯他人的智慧財產權等等,而不是在誘導大家去爬取他人的網站。
這裡魚皮給大家列舉下爬蟲前的注意事項:
1)遵守網站的使用條款:仔細閱讀網站的使用條款和服務協議,確定是否允許抓取和資料使用。有些網站可能明確禁止抓取或設定了抓取的條件,違反這些條款可能會導致法律問題。
2)遵守 robots.txt 檔案:這個檔案表示了網站對爬蟲抓取的規則,某些頁面如果明確標註了禁止抓取,建議不要下手。
比如我們面試鴨的 robots.txt 檔案,第一行就是先禁用所有的爬蟲,然後再給搜尋引擎開放一些抓取。
3)不要抓取付費內容:一般付費內容都是申請了版權 / 著作權的,未經授權的抓取和傳播可能涉及侵犯版權、會導致實際的賠償。而且一般付費內容都是僅付費使用者才能檢視的,付費使用者往往更好追溯到源頭,千萬別僥倖地以為別人查不到你!
4)控制好爬蟲的頻率:前面也提到了,如果你的爬蟲請求頻率過高,影響了網站的正常執行,那麼性質就變成 “網路攻擊” 了,後果往往更嚴重。而且一般情況下,網站都有反爬蟲的防護措施,請求頻率過高要麼給你限流、要麼直接封 IP、封賬號,千萬別以為是開玩笑。
總之,技術本身是無罪的,但用不好是真的會進局子的!大家直接在
## 更多
💻 程式設計學習交流:程式設計導航
📃 簡歷快速製作:老魚簡歷
✏️ 面試刷題神器:面試鴨