AotucCrawler 快速爬取圖片

蟲師發表於2021-11-25

原文網址 : https://www.cnblogs.com/fnng/p/15605386.html

AotucCrawler 快速爬取圖片

今天介紹一款自動化爬取圖片專案。

GitHub: https://github.com/YoongiKim/AutoCrawler

Google, Naver multiprocess image web crawler (Selenium)

關鍵字

爬蟲網站：Google、Naver （美、韓兩大搜尋引擎）
執行方式：Multiprocess（多程式）
爬取格式：image （圖片）
基於自動化工具：Selenium （不解釋）

如何使用

Git克隆AutoCrawler專案到本地
自行安裝 Chrome 瀏覽器
安裝依賴

> pip -r requirements.txt

certifi: 包含了很多可信任知名公司的證照/公鑰。
chardet：提供自動檢測字元編碼的功能。
idna: 提供"對於RFC5891中定義的IDNA協議（Internationalised Domain Names in Applications）的支援"。
requests: 依賴於上面三個基礎庫，他主要用於根據圖片連結下載圖片。
selenium: 用於啟動瀏覽器，爬取圖片連結。
webdriver-manager: 用來管理selenium瀏覽器驅動的專案。

仔細分析別人專案，不管是原始碼還是依賴庫都會有收穫。webdriver-manager 就是我發現的一個寶藏專案，它簡化的瀏覽器驅動的管理。

開啟keywords.txt檔案，編寫爬取的關鍵字。

cat
dog

執行main.py 檔案

> python main.py

引數說明:

--skip true：如果下載的關鍵字已經存在，是否跳過關鍵字，重新下載時需要設定。

--threads 4：下載使用執行緒數量

--google true：從google.com 下載。

--naver true: 從naver.com 下載。

--full false: 下載全解析度影像而不是縮圖 (慢)。

--face false: Face search mode。

--no_gui auto: 使用 GUI 模式. (headless模式) 全解析度模式可以加速, 但是縮圖模式不穩定。預設auto模式，如果full=false 預設使用使用GUI，如果full=true預設Headless模式。（可用於docker linux系統）。

--limit 0: 設定最大圖片下載範圍。 (0: 無限制)

--proxy-list: 逗號分隔的代理列表，如: socks://127.0.0.1:1080, http://127.0.0.1:1081，每個執行緒從列表中隨即選擇一個。

例如：

> python main.py --threads 2 --google true  --naver false --full false --limit 50

爬取的圖片儲存於 downloads/ 目錄。

小結

因為使用的是Google網站，沒有梯子的同學有點鬱悶。專案本身並不複雜，兩個python檔案加一起不到1000行程式碼，我們完全可以花點時間替換為國內可訪問的搜尋引擎。
下載圖片只是為了欣賞貓貓狗狗嗎？當然不是，我們可用下載的圖片訓練 AI。

Java爬蟲批量爬取圖片
2021-09-24
Java爬蟲
node：爬蟲爬取網頁圖片
2019-02-16
爬蟲網頁
爬蟲---xpath解析（爬取美女圖片）
2020-12-23
爬蟲
Python爬蟲—爬取某網站圖片
2020-11-19
Python爬蟲網站
爬蟲 Scrapy框架爬取圖蟲圖片並下載
2018-08-27
爬蟲框架
爬取愛套圖網上的圖片
2018-03-28
Python爬蟲入門【5】：27270圖片爬取
2019-07-30
Python爬蟲
爬取微博圖片資料存到Mysql中遇到的各種坑mysql儲存圖片爬取微博圖片
2019-02-16
MySql
網路爬蟲---從千圖網爬取圖片到本地
2019-09-03
爬蟲
Python《必應bing桌面圖片爬取》
2020-12-26
Python
Python爬蟲實戰詳解：爬取圖片之家
2020-11-04
Python爬蟲
Python爬蟲新手教程：知乎文章圖片爬取器
2019-07-20
Python爬蟲
Python爬蟲遞迴呼叫爬取動漫美女圖片
2020-10-19
Python爬蟲遞迴
青花瓷圖片的爬取和resize
2020-10-06
用雲函式快速實現圖片爬蟲
2018-11-02
函式爬蟲
python 爬蟲之requests爬取頁面圖片的url，並將圖片下載到本地
2019-06-12
Python爬蟲
新手爬蟲教程：Python爬取知乎文章中的圖片
2019-01-17
爬蟲Python
Python應用開發——爬取網頁圖片
2022-09-21
Python網頁
簡單的爬蟲：爬取網站內容正文與圖片
2021-09-09
爬蟲網站
Python爬取王者榮耀英雄皮膚高清圖片
2018-11-07
Python
利用Python爬取攝影網站圖片，切勿商用
2018-12-18
Python網站
使用Scrapy爬取圖片入庫,並儲存在本地
2019-06-27
java 爬取網頁內容。標題、圖片等
2021-09-24
Java網頁
自學python網路爬蟲，從小白快速成長，分別實現靜態網頁爬取，下載meiztu中圖片；動態網頁爬取，下載burberry官網所有當季新品圖片。
2020-02-06
Python爬蟲網頁
Python資料爬蟲學習筆記（11）爬取千圖網圖片資料
2018-09-18
Python爬蟲筆記
Python網路爬蟲2 - 爬取新浪微博使用者圖片
2018-04-10
Python爬蟲
Python爬蟲入門【4】：美空網未登入圖片爬取
2019-07-30
Python爬蟲
爬蟲Selenium+PhantomJS爬取動態網站圖片資訊（Python）
2018-03-24
爬蟲JS網站Python
蘇寧易購網址爬蟲爬取商品資訊及圖片
2021-10-12
爬蟲
最簡單的網路圖片的爬取 --Pyhon網路爬蟲與資訊獲取
2020-04-04
爬蟲
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
使用正則編寫簡單的爬蟲爬取某網站的圖片
2018-06-06
爬蟲網站
python爬取網圖
2019-10-15
Python
Python爬蟲入門教程 4-100 美空網未登入圖片爬取
2018-12-17
Python爬蟲
go語言實現簡單爬蟲獲取頁面圖片
2022-11-14
Go爬蟲
【python--爬蟲】千圖網高清背景圖片爬蟲
2019-05-21
Python爬蟲
讀取本地圖片
2024-08-23
地圖
實用爬蟲-03-爬取視訊教程課程名+連結+下載圖片
2018-10-29
爬蟲

AotucCrawler 快速爬取圖片

AotucCrawler 快速爬取圖片

如何使用

小結

相關文章