一個事件驅動的圖片爬蟲

weixin_34357887發表於2017-12-14

原文網址 : https://blog.csdn.net/weixin_34357887/article/details/88000372

事件爬蟲

起因

無聊的時候會翻出去看看國外的漫畫，然而一頁一頁載入總是會很慢，偶爾還需要多重新整理幾次才能顯示出來，非常影響體驗。於是就寫了個指令碼去抓某一個漫畫下所有的圖片，這樣跑一遍指令碼，就能在本地看圖片了。
為了偷懶，第一個版本用的單執行緒模型，幾百張圖片序列請求，真的慢。
實際工作中一直沒什麼機會用到非同步IO，正好拿來練練手。

分析

併發的下載圖片，有多執行緒和事件驅動兩套方案。

多執行緒的實現方式，例如一部漫畫有300張圖，我不可能開300個Thread，系統受不了。比較實際的做法是使用一個容量為N的ThreadPool，那麼，同時就只能發出N個請求，然後所有執行緒Block等待，其實效率也不高

然而事件驅動的方式就不一樣了，我可以一口氣把所有請求發出去，當有請求完成時，就呼叫事先定義的回撥Handle，實現了300張圖片的並行下載。

先上圖看看效果

從圖中就可以看出，所有的請求都發出去之後，才陸續有響應結果亂序到達。這就是典型的非同步IO的情景。

基於EventMachine的非同步圖片爬蟲

EventMachine是ruby社群知名的事件驅動庫，類似於Netty、NodeJS

通過 EM.run{}就可以開始一個事件迴圈

以下是關鍵程式碼

  #img_info = [{file_name: '1.jpg', url:'xxx'}...]

  def getImg(img_info)
    EM.run{ ＃開啟事件迴圈
      multi = EventMachine::MultiRequest.new ＃request容器
      @img_info_copy = img_info.dup
      img_info.each do |info|
        file_name = File.join(@dir, info[:file_name])
        if FileTest::exist?(file_name)
          @img_info_copy.delete(info)
          puts "#{file_name} skip".blue
          next
        end
        puts "#{file_name} start".green
        req = EventMachine::HttpRequest.new(info[:url]).get ＃建立request
        multi.add "#{file_name}",req
        req.callback { ＃成功回撥
          File.open(file_name, 'w') { |file| file.write(req.response) }
          @img_info_copy.delete(info)
          puts "#{file_name} done".green
        }
        req.errback { ＃失敗回撥
          puts "#{file_name} fail".red
        }
      end
      multi.callback do ＃所有request都完成後的回撥
        if @img_info_copy.size == 0 ＃如果沒有圖片下載失敗
          EM.stop
        else ＃遞迴呼叫，重新下載的圖片
          puts "Total fails: #{@img_info_copy.size}, solving...".red
          getImg @img_info_copy.dup
        end
      end
    }
  end
複製程式碼

遇到的小坑

EM.run {}之後，主執行緒就block了，所有寫在它後面的程式碼都不執行
複製程式碼

效果

通過這次的優化，下載一部兩三百頁漫畫的時間從之前單執行緒版本的二十多分鐘，變成了現在的兩分鐘左右！

Java爬蟲批量爬取圖片
2021-09-24
Java爬蟲
爬蟲 Scrapy框架爬取圖蟲圖片並下載
2018-08-27
爬蟲框架
【python--爬蟲】千圖網高清背景圖片爬蟲
2019-05-21
Python爬蟲
一個實現批量抓取淘女郎寫真圖片的爬蟲
2018-03-14
爬蟲
Python爬蟲遞迴呼叫爬取動漫美女圖片
2020-10-19
Python爬蟲遞迴
node：爬蟲爬取網頁圖片
2019-02-16
爬蟲網頁
爬蟲---xpath解析（爬取美女圖片）
2020-12-23
爬蟲
Python 爬蟲零基礎教程(1)：爬單個圖片
2024-03-13
Python爬蟲
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
Python爬蟲—爬取某網站圖片
2020-11-19
Python爬蟲網站
使用Python爬蟲實現自動下載圖片
2021-09-11
Python爬蟲
ReactPHP 爬蟲實戰：下載整個網站的圖片
2019-01-20
ReactPHP爬蟲網站
Python爬蟲入門【5】：27270圖片爬取
2019-07-30
Python爬蟲
Python爬蟲入門【6】：蜂鳥網圖片爬取之一
2019-07-30
Python爬蟲
爬蟲Selenium+PhantomJS爬取動態網站圖片資訊（Python）
2018-03-24
爬蟲JS網站Python
網路爬蟲---從千圖網爬取圖片到本地
2019-09-03
爬蟲
新手爬蟲教程：Python爬取知乎文章中的圖片
2019-01-17
爬蟲Python
Python爬蟲實戰詳解：爬取圖片之家
2020-11-04
Python爬蟲
Zilla：一個事件驅動的API閘道器
2022-06-16
事件API
Python爬蟲小專案：爬一個圖書網站
2018-11-21
Python爬蟲網站
python 爬蟲之requests爬取頁面圖片的url，並將圖片下載到本地
2019-06-12
Python爬蟲
Python爬蟲深造篇(四)——Scrapy爬蟲框架啟動一個真正的專案
2021-11-08
Python爬蟲框架
京東商品圖片自動下載抓取 c# 爬蟲
2020-09-30
C#爬蟲
簡單的爬蟲：爬取網站內容正文與圖片
2021-09-09
爬蟲網站
Python爬蟲新手教程：知乎文章圖片爬取器
2019-07-20
Python爬蟲
用Node.js寫爬蟲，擼羞羞的圖片
2018-04-03
Node.js爬蟲
爬蟲敏感圖片的識別與過濾，瞭解一下？
2019-03-01
爬蟲
事件驅動的微服務-事件驅動設計
2020-04-16
事件微服務
實戰：如何通過python requests庫寫一個抓取小網站圖片的小爬蟲
2020-01-25
Python網站爬蟲
用雲函式快速實現圖片爬蟲
2018-11-02
函式爬蟲
python 爬蟲下載百度美女圖片
2024-04-18
Python爬蟲
python爬蟲初探--第一個python爬蟲專案
2018-05-18
Python爬蟲
我的第一個 scrapy 爬蟲
2019-02-16
爬蟲
精通Scrapy網路爬蟲【一】第一個爬蟲專案
2021-06-19
爬蟲
一個很垃圾的整站爬取--Java爬蟲
2019-01-07
Java爬蟲
如何用Python爬蟲實現百度圖片自動下載？
2019-03-01
Python爬蟲
使用正則編寫簡單的爬蟲爬取某網站的圖片
2018-06-06
爬蟲網站
Python爬蟲入門【7】：蜂鳥網圖片爬取之二
2019-07-31
Python爬蟲
Python爬蟲入門【8】：蜂鳥網圖片爬取之三
2019-07-31
Python爬蟲

一個事件驅動的圖片爬蟲

起因

分析

基於EventMachine的非同步圖片爬蟲

遇到的小坑

效果

相關文章