go語言實現簡單爬蟲獲取頁面圖片

DogeDogeGo發表於2022-11-14

原文網址 : https://learnku.com/articles/73211?order_by=created_at&

package main

import (
    "bufio"
    "fmt"
    "github.com/antchfx/htmlquery"
    "io"
    "net/http"
    "os"
    "path"
    "strconv"
    "strings"
    "sync"
)

//重寫reader用於實現顯示下載進度
//type Reader struct {
//    io.Reader
//    //bufio.Reader
//    Total   int64
//    Current int64
//}
//
//func (r *Reader) Read(p []byte) (n int, err error) {
//    n, err = r.Reader.Read(p)
//    r.Current += int64(n)
//    fmt.Printf("\r當前進度 %.2f\n", float64((r.Current*10000)/r.Total)/100)
//    return
//}

var wg sync.WaitGroup

func main() {
    //從命令列中獲取網站
    //baseUrl := os.Args[1]

    baseUrl := "https://www.bizhi88.com/"
    dirPath := "./temp/"
    //若目標圖片沒有字尾格式  使用圖片格式png
    imgFormat := ".png"
    imgUrl, _ := getImgUrl(baseUrl)

    //imgUrl := []string{"http://img.sccnn.com/bimg/340/03821.jpg"}
    _ = createDir(dirPath)
    for index, url := range imgUrl {
        wg.Add(1)
        go downloadFile(url, dirPath, imgFormat, index)
    }
    wg.Wait()
}

//獲取圖片地址
func getImgUrl(baseUrl string) (imgUrl []string, err error) {
    doc, err := htmlquery.LoadURL(baseUrl)
    if err != nil {
        panic(err)
        return nil, err
    }

    list := htmlquery.Find(doc, "//img")

    for _, item := range list {

        //imgUrl = append(imgUrl, htmlquery.SelectAttr(item, "src"))

        //對於https://www.bizhi88.com/     圖片真是地址位於標籤data-original中
        if temp := htmlquery.SelectAttr(item, "data-original"); temp != "" {
            //避免某些圖片地址位於標籤src對於的值    取data-original則會為空值
            imgUrl = append(imgUrl, temp)
        }
    }

    return
}

func downloadFile(url string, dirPath string, imgFormat string, index int) {
    fileName := path.Base(url)
    //使用（保留）目標圖片固有格式
    if strings.Contains(fileName, ".jpg") || strings.Contains(fileName, ".png") || strings.Contains(fileName, ".jpeg") || strings.Contains(fileName, ".gif") || strings.Contains(fileName, ".bmp") {
        imgFormat = ""
    }
    res, err := http.Get(url)
    if err != nil {
        fmt.Println(url)
        fmt.Println(index)
        panic(err)
        return
    }
    defer func() {
        err := res.Body.Close()
        if err != nil {
            panic(err)
        }
    }()
    // 獲得get請求響應的reader物件
    bfReader := bufio.NewReaderSize(res.Body, 32*1024)

    //重寫reader用於實現顯示下載進度
    //reader := &Reader{
    //    Reader: bfReader,
    //    Total:  res.ContentLength,
    //}

    file, err := os.Create(dirPath + strconv.Itoa(index) + fileName + imgFormat)
    if err != nil {
        panic(err)
    }
    // 獲得檔案的writer物件
    writer := bufio.NewWriter(file)

    _, _ = io.Copy(writer, bfReader)

    //重寫reader用於實現顯示下載進度
    //_, _ = io.Copy(writer, reader)

    wg.Done()
}

//建立資料夾
func createDir(path string) (err error) {
    _, err = os.Stat(path) //   "./temp/"
    if err != nil {
        //資料夾不存在 建立資料夾
        err = os.Mkdir(path, os.ModePerm)
        if err != nil {
            panic(err)
        }
    }
    return
}

Xpath:

htmlquery:

Github
CSDN
[GoPkg]:
https://pkg.go.dev/github.com/antchfx/htmlquery@v1.2.5

有個網頁圖片地址並非位於img下src中

爬蟲程式需靈活定製

本作品採用《CC 協議》，轉載必須註明作者和本文連結

node：爬蟲爬取網頁圖片
2019-02-16
爬蟲網頁
最簡單的網路圖片的爬取 --Pyhon網路爬蟲與資訊獲取
2020-04-04
爬蟲
簡單的爬蟲：爬取網站內容正文與圖片
2021-09-09
爬蟲網站
python 爬蟲之requests爬取頁面圖片的url，並將圖片下載到本地
2019-06-12
Python爬蟲
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
Java爬蟲批量爬取圖片
2021-09-24
Java爬蟲
Request模組實戰01 ---簡單爬取頁面
2020-12-08
Python爬蟲實戰詳解：爬取圖片之家
2020-11-04
Python爬蟲
使用正則編寫簡單的爬蟲爬取某網站的圖片
2018-06-06
爬蟲網站
爬蟲 Scrapy框架爬取圖蟲圖片並下載
2018-08-27
爬蟲框架
爬蟲---xpath解析（爬取美女圖片）
2020-12-23
爬蟲
Go語言專案實戰：併發爬蟲
2018-11-16
Go爬蟲
Python爬蟲—爬取某網站圖片
2020-11-19
Python爬蟲網站
Go語言實現簡單的反序列化
2024-09-12
Go
Python爬蟲入門【5】：27270圖片爬取
2019-07-30
Python爬蟲
用雲函式快速實現圖片爬蟲
2018-11-02
函式爬蟲
使用 Go 語言實現簡單的文字識別（OCR）
2024-12-06
Go
python爬蟲簡單實現逆向JS解密
2019-08-29
Python爬蟲JS解密
網路爬蟲---從千圖網爬取圖片到本地
2019-09-03
爬蟲
go語言獲取外部引數
2020-10-21
Go
為什麼寫爬蟲用Python語言?原因很簡單！
2021-03-19
爬蟲Python
Node JS爬蟲：爬取瀑布流網頁高清圖
2018-05-17
JS爬蟲網頁
使用Python爬蟲實現自動下載圖片
2021-09-11
Python爬蟲
自學python網路爬蟲，從小白快速成長，分別實現靜態網頁爬取，下載meiztu中圖片；動態網頁爬取，下載burberry官網所有當季新品圖片。
2020-02-06
Python爬蟲網頁
Python爬蟲新手教程：知乎文章圖片爬取器
2019-07-20
Python爬蟲
Python爬蟲遞迴呼叫爬取動漫美女圖片
2020-10-19
Python爬蟲遞迴
【Go語言繪圖】圖片新增文字（二）
2021-08-01
Go繪圖
【Go語言繪圖】圖片新增文字（一）
2020-12-20
Go繪圖
【Go語言繪圖】圖片的旋轉
2020-12-16
Go繪圖
用PYTHON爬蟲簡單爬取網路小說
2021-09-11
Python爬蟲
Java後臺Html轉圖片和獲取頁面屬性值，及圖片拼接
2020-11-04
JavaHTML
實現簡單的輪播圖（單張圖片、多張圖片）
2020-02-11
python 爬取 blessing skin 的簡單實現
2020-03-04
Python
新手爬蟲教程：Python爬取知乎文章中的圖片
2019-01-17
爬蟲Python
Python實現簡單網頁圖片抓取完整程式碼例項
2020-05-27
Python網頁
C語言爬蟲程式編寫的爬取APP通用模板
2024-01-17
C語言爬蟲APP
java實現一個簡單的爬蟲小程式
2020-08-11
Java爬蟲
python 爬蟲簡單實現百度翻譯
2020-04-14
Python爬蟲

go語言實現簡單爬蟲獲取頁面圖片

相關文章