【太陽軟體】動態換ip軟體:反爬蟲對抗對資料分析的影響
概念定義
► 網路爬蟲:使用任意技術手法批次獲取網站站點網頁資訊的1種方法。
► 反網路爬蟲:是指使用任意技術手法,阻止別人批次獲取自己網站站點網頁資訊的1種方法。
(主講重點強調了“批次”二字,如果一次只獲取幾百條資料不能稱之為網路爬蟲,因為人工去複製貼上的效率可能更高)
► 誤傷:在反網路爬蟲過程中,錯誤地將一般正常使用者識別為網路爬蟲的行為。
► 攔截:成功阻止網路爬蟲訪問。
反網路爬蟲原理
形形色色的假幣有一個共同的特徵,就是和真幣不一樣。同理,形形色色的網路爬蟲也有一個共同的特徵,那就是它們的行為和真實的正常使用者不一樣。
對於每一天大批次的訪問,反網路爬蟲工程師需要根據訪問行為的特徵,鑑定哪些訪問是網路爬蟲所為,然後採取一些措施阻止其獲取資料。但是也有一定機率將真實正常使用者判定為網路爬蟲,而導致該正常使用者無法繼續訪問網站站點或者無法看到真實的資料,影響了正常使用者體驗,這就是誤傷。
反網路爬蟲策略的演變
最初反網路爬蟲的思路的是阻止對方拿到資料,但是在博弈中工程師們逐漸發現,網路爬蟲是無法完全攔截的。因此現在更多的策略變成提供假資料,降低對方資料分析的可信性。
主講人給大家舉一個例子把這個策略具體化。A企業和B企業進行價格競爭,雙方都希望自己的定價低於對方來吸引正常使用者。假設A企業定價200元,而B企業想要透過爬取A企業的價格資料制定更低的價格。此時A企業的反網路爬蟲策略是對識別為網路爬蟲的訪問並提供220元的價格。這樣一來,B企業就很可能基於這個假資料給相同商品定了一個210元的價格,以為可以在自己利潤損失較少的情況下吸引客戶。但事實上,這個價格比A企業的真實定價要高,正常使用者一筆價,還是會選擇購買A企業的產品。在這種情況下,B企業透過網路爬蟲獲得的資料就無法產生經濟效益,A企業的“反網路爬蟲資料保衛戰”取得了勝利。
當這種策略成了業內的共同知識,不少企業都會對爬取到的資料進行檢查。目前,業界對所爬資料的處理方式主要有以下三種:
① 不驗證
② 多次爬取驗證
③ 人工抽檢
網路爬蟲與反網路爬蟲崗位對比
一般企業都會對外聲稱自己做反網路爬蟲,而隱瞞自己做網路爬蟲。因為做網路爬蟲就像在偷別人的資料,而做反網路爬蟲則像在維護自己的資源,同時標榜自己的技術。但是招聘網站站點的資料是誠實的,在招聘網站站點上能搜到的反網路爬蟲工程師崗位屈指可數,而網路爬蟲工程師卻非常多。
企業一般很難招到反網路爬蟲工程師,因為會網路爬蟲的很多,會反爬的工程師很少。人才以稀為貴,反網路爬蟲工程師的薪資也通常會比網路爬蟲工程師高很多。因為人員缺乏,反網路爬蟲的工作通常是由非專業團隊來做的。一般都是在對企業網站站點常常遭遇網路爬蟲的時期,管理人員以升職加薪為“誘餌”,調一部分前端的技術人員去做艱苦的反網路爬蟲工作。
反網路爬蟲工程師的工作比較穩定,而網路爬蟲工程師則比較容易離職。這是因為企業對網路爬蟲工程師的績效考核非常嚴格(比如抽查3000條資料,只要有一條是假的資料就全部重爬),容易造成壓力。當然,被競爭對手的反網路爬蟲工程師勸退也是離職率高背後一個比較重要的原因。關於這點先賣個關子,之後再展開來講。
網路爬蟲和反網路爬蟲的戰爭
網路爬蟲和反網路爬蟲的戰爭耗費了很多資源,非常無聊,而且常常無法產生經濟效益。他們之間的戰爭就像遊戲和外掛的戰爭一樣。遊戲釋出→外掛橫行→遊戲修補→漏洞外掛失效→新外掛出現→遊戲再修補……反反覆覆,直到一方撐不下去,網路爬蟲與反爬也是如此。
一個情節跌宕起伏的例項:反網路爬蟲工程師為了等待對方網路爬蟲工程師下班,靜靜忍到晚上11點才更新策略,但第二天一覺醒來卻發現自己的反網路爬蟲系統竟然在凌晨3點被破解、資料也被對方獲取,下定決心以後睜著大眼睛等到凌晨3點之後再對策略進行更新。
對弈是煎熬的,但在這雙方來來去去的過程中也發生了不少趣事。反網路爬蟲工程師有時會在網站站點的程式碼中新增一些註釋,這些註釋一般正常使用者看不到,但是網路爬蟲工程師可以看到。他們會在這些註釋裡寫一些讓對方放棄的話語。甚至在一層層反網路爬蟲策略靠後的位置放一些招聘網頁資訊,策反對面網路爬蟲工程師,因為能透過前面的重重關卡來到這裡的,技術都是有保證的。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561288/viewspace-2375056/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 好用的爬蟲軟體?動態ip軟體告訴你爬蟲
- 動態換ip軟體帶你看:爬蟲常見的抓取策略爬蟲
- 太陽軟體帶你溫習:反爬手段有幾何?
- 軟體效能的設計(三)資料型別對軟體效能的影響 (轉)資料型別
- 軟體測試對軟體質量的影響有那些?
- 軟體測試對軟體質量有哪些影響?
- 人工智慧對軟體測試的影響人工智慧
- 太陽軟體站長:學爬蟲怎麼能不會這8個技巧?爬蟲
- 【太陽軟體】動態ip代理為你詳解這些長得很像的代理模式模式
- 軟體的效能設計(一)介面設計對軟體效能的影響 (轉)
- 軟體的效能設計(二) 臨時物件對軟體效能的影響 (轉)物件
- 動態ip代理軟體:只要網際網路在,爬蟲就存在爬蟲
- 動態IP代理軟體有話說:天下爬蟲框架皆出Scrapy爬蟲框架
- 太陽軟體站長丨Python比動態ip代理更適合人工智慧Python人工智慧
- 「資料分析」2種常見的反爬蟲策略,資訊驗證和動態反爬蟲爬蟲
- 低程式碼開發對軟體開發流程的影響
- 反爬蟲的應對措施爬蟲
- Google向Linux移植軟體 轉換平臺對抗微軟(轉)GoLinux微軟
- 新會計準則實施對財務軟體的影響
- 反爬蟲應對策略爬蟲
- 動態換ip軟體:手把手教你搭建Cookies池Cookie
- 給你一個換ip軟體:分散式爬蟲透過具體都能幹點啥?分散式爬蟲
- 勒索軟體攻擊影響
- 積體電路ERP管理軟體成功率對於企業影響
- McAfee針對GandCrab勒索軟體的分析
- 如何應對反爬蟲措施?爬蟲
- 做資料分析,軟體工具少不了,好用的資料分析軟體工具
- 換ip軟體的使用建議
- 開源爬蟲軟體彙總爬蟲
- 雲對基礎設施和軟體的影響和改變是深遠的資料技術AIAI
- [軟體人生]關於離婚對孩子的影響——我想說,我經歷
- 軟體開發領域的10場有意思的對抗
- 換ip軟體的挑選要點
- 記憶體故障對電腦的影響記憶體
- 虛擬記憶體對 OI 的影響記憶體
- 普通反爬蟲機制的應對策略爬蟲
- 常見的反爬蟲和應對方法爬蟲
- 對於公司,也是我對軟體行業,軟體專案的五想法行業