爬取 boss 直聘技術崗並分析

guijianshi發表於2019-03-20

前段時間工作不飽和,飽暖思淫慾,就爬取了boss直聘的主要城市技術崗,並對資料進行一個簡單的分析。
線上地址

技術棧

  1. 用到的技術棧有laravel+mysql
  2. 用到的第三方包
    1. sunra/php-simple-html-dom-parser
    2. guzzlehttp/guzzle
    3. 驗證碼識別/百度orc

      基本思路

      一開始想的簡單,直接dom解析無腦採集就好了,有simple-html-dom-parser解析起來還是比較簡單的。採用command方式定時採集,每個崗位儘量錯開,避免對boss直聘造成壓力,也避免被封。可是真的跑起來發現還是會封的ip,哪怕我已經儘量sleep了。鑑於此。只能老老實實的採取代理的方式。
      簡單說一下代理實現方式,採集網上免費代理網站,對採集到的代理進行檢查是否可用(大部分不可用)。採集時從資料庫當中查出,可用代理序列化儲存到本地,每次從中pop出一個。如此作為一個簡單的代理池使用,基本沒有采集失敗的情況。失敗的採集任務也會在每天進行重試保證採集穩定。

      基本資料

      資料示意圖,具體資料可以在網站上看。就不一一描述了。
      file

file

結論

PHP別來杭州,別來杭州,別來杭州,重要的事情說三遍。最後求職呀!!!

相關文章