前段時間工作不飽和,飽暖思淫慾,就爬取了boss直聘的主要城市技術崗,並對資料進行一個簡單的分析。
線上地址
技術棧
- 用到的技術棧有laravel+mysql
- 用到的第三方包
- sunra/php-simple-html-dom-parser
- guzzlehttp/guzzle
- 驗證碼識別/百度orc
基本思路
一開始想的簡單,直接dom解析無腦採集就好了,有simple-html-dom-parser解析起來還是比較簡單的。採用command方式定時採集,每個崗位儘量錯開,避免對boss直聘造成壓力,也避免被封。可是真的跑起來發現還是會封的ip,哪怕我已經儘量sleep了。鑑於此。只能老老實實的採取代理的方式。
簡單說一下代理實現方式,採集網上免費代理網站,對採集到的代理進行檢查是否可用(大部分不可用)。採集時從資料庫當中查出,可用代理序列化儲存到本地,每次從中pop出一個。如此作為一個簡單的代理池使用,基本沒有采集失敗的情況。失敗的採集任務也會在每天進行重試保證採集穩定。基本資料
資料示意圖,具體資料可以在網站上看。就不一一描述了。
結論
PHP別來杭州,別來杭州,別來杭州,重要的事情說三遍。最後求職呀!!!
本作品採用《CC 協議》,轉載必須註明作者和本文連結