剛開始選擇爬蟲是感覺比開發簡單,那時候Django和flask覺得太難,就走爬蟲這條路,但現在來說發現越來越難,簡直不是人乾的事,一入爬蟲深似海!我將自己的心聲寫成筆記分享出來,想入爬蟲坑的慎重。
現在分為web端和APP端:
web端返回格式,有json,html等格式,
狀態常見的有兩種,get和post,有些加入headers和data就能請求出來
難點:UA檢測,頻率限制,IP封禁,登入限制,動態載入,引數加密(js逆向),驗證碼,字型反爬,css反爬等從易到難
app端基本都是http、https協議,返回格式大部分都是json,相對於web端返回格式更規整,也好抓取些。
難點:app逆向,app脫殼,引數加密,破解各種簽名、證照等等
想搞會app的這些反爬得先掌握java程式設計,安卓程式設計,C這些語言,至少得能看懂語法
從入門到全棧,難度可想而知
最重要的一點大家都知道,爬蟲這個崗位屬於灰色邊緣層級,崗位也不多,懂得都懂,能轉開發或者其他的都可以