Golang 爬蟲快速入門 | 獲取 B 站全站的視訊資料

zhshch2002發表於2020-04-14

原文首發並持續更新於 https://imagician.net/archives/92/,欲瞭解更多資訊可以前往我的部落格https://imagician.net/

提到爬蟲,總會聯想到Python。似乎Python是爬蟲的唯一選擇。爬蟲只是完成一個訪問頁面然後收集資料的任務,用任何語言來寫都能實現。相比較Python快速實現但是龐大的體型,Golang來寫爬蟲似乎是更好的又一選擇。

HTTP請求

Golang語言的HTTP請求庫不需要使用第三方的庫,標準庫就內建了足夠好的支援:

package main

import (
    "fmt"
    "net/http"
    "io/ioutil"
)

func fetch (url string) string {
    fmt.Println("Fetch Url", url)

    // 建立請求
    req, _ := http.NewRequest("GET", url, nil)
    // 建立HTTP客戶端
    client := &http.Client{}
    // 發出請求
    resp, err := client.Do(req)
    if err != nil {
        fmt.Println("Http get err:", err)
        return ""
    }
    if resp.StatusCode != 200 {
        fmt.Println("Http status code:", resp.StatusCode)
        return ""
    }
    // 讀取HTTP響應正文
    defer resp.Body.Close()
    body, err := ioutil.ReadAll(resp.Body)
    if err != nil {
        fmt.Println("Read error", err)
        return ""
    }
    return string(body)
}

func main(){
    fmt.Println(fetch("https://github.com"))
}

使用官方的HTTP包可以快速的請求頁面並得到返回資料。

就像Python有Scrapy庫,爬蟲框架可以很大程度上簡化HTTP請求、資料抽取、收集的流程,同時還能提供更多的工具來幫助我們實現更復雜的功能。

Golang爬蟲框架——Goribot

https://github.com/zhshch2002/goribot是一個用Golang寫成的爬蟲輕量框架,有不錯的擴充套件性和分散式支援能力,文件在https://imagician.net/goribot/

獲取Goribot:

go get -u github.com/zhshch2002/goribot

使用Goribot實現上文的程式碼的功能要看起來簡潔不少。

package main

import (
    "fmt"
    "github.com/zhshch2002/goribot"
)

func main() {
    s := goribot.NewSpider()
    s.AddTask(
        goribot.GetReq("https://github.com"),
        func(ctx *goribot.Context) {
            fmt.Println(ctx.Resp.Text)
        },
    )
    s.Run()
}

如此之實現了一個單一的功能,即訪問 “https://github.com” 並列印出結果。如此的應用還不足以使用框架。那我們來入手一個更復雜點的爬蟲應用。

用Goribot爬取B站資訊

我們來建立一個複雜點的爬蟲應用,預期實現兩個功能:

  1. 沿著連結自動發現新的視訊連結
  2. 提取標題、封面圖、作者和視訊資料(播放量、投幣、收藏等)

研究B站頁面

首先我們來研究一下B站的視訊頁面,以https://www.bilibili.com/video/BV1JE411P7h...為例,按F12開啟除錯介面,切換到Network(網路)選項卡。

image

我們能看到這一頁面所涉及的所有請求、資源。在除錯介面裡選在XHR選項,來檢視Ajax請求。

你可以通過點選不同的請求,在右側彈出的皮膚裡檢視具體內容。在新皮膚裡點選Preview(預覽)可以檢視伺服器響應的內容。

那麼,交給你一個任務,依次檢視XHR下的所有請求,找到最像是伺服器返回的點贊、收藏、播放量資料的哪一個。


很好,那來看看你找到是這個嗎?

image

你已經成功達成了一個爬蟲工程師的成就——從Ajax請求裡尋找目標資料。

那我們切換到Header(標頭)選項,來看看這個請求對應的引數,最好能找到這個響應和視訊Id的關係。

image

發現了視訊Id——BV號。

我們以及解決了核心問題,獲取B站的視訊資料,對於自動搜尋視訊,我們可以設定一個起始連結,然後搜尋<a>標籤來延伸爬取。

搭建爬蟲

完整程式碼在後文。

建立爬蟲

s := goribot.NewSpider( // 建立一個爬蟲並註冊擴充套件
    goribot.Limiter(true, &goribot.LimitRule{ // 新增一個限制器,限制白名單域名和請求速錄限制
        Glob: "*.bilibili.com",               // 以防對伺服器造成過大壓力以及被B站伺服器封禁
        Rate: 2,
    }),
    goribot.RefererFiller(), // 自動填寫Referer,參見Goribot(https://imagician.net/goribot/)關於擴充套件的部分
    goribot.RandomUserAgent(), // 隨機UA
    goribot.SetDepthFirst(true), // 使用深度優先策略,就是沿著一個頁面,然後去子頁面而非同級頁面
)

獲取視訊資料

var getVideoInfo = func(ctx *goribot.Context) {
    res := map[string]interface{}{
        "bvid":  ctx.Resp.Json("data.bvid").String(),
        "title": ctx.Resp.Json("data.title").String(),
        "des":   ctx.Resp.Json("data.des").String(),
        "pic":   ctx.Resp.Json("data.pic").String(),   // 封面圖
        "tname": ctx.Resp.Json("data.tname").String(), // 分類名
        "owner": map[string]interface{}{ //視訊作者
            "name": ctx.Resp.Json("data.owner.name").String(),
            "mid":  ctx.Resp.Json("data.owner.mid").String(),
            "face": ctx.Resp.Json("data.owner.face").String(), // 頭像
        },
        "ctime":   ctx.Resp.Json("data.ctime").String(), // 建立時間
        "pubdate": ctx.Resp.Json("data.pubdate").String(), // 釋出時間
        "stat": map[string]interface{}{ // 視訊資料
            "view":     ctx.Resp.Json("data.stat.view").Int(),
            "danmaku":  ctx.Resp.Json("data.stat.danmaku").Int(),
            "reply":    ctx.Resp.Json("data.stat.reply").Int(),
            "favorite": ctx.Resp.Json("data.stat.favorite").Int(),
            "coin":     ctx.Resp.Json("data.stat.coin").Int(),
            "share":    ctx.Resp.Json("data.stat.share").Int(),
            "like":     ctx.Resp.Json("data.stat.like").Int(),
            "dislike":  ctx.Resp.Json("data.stat.dislike").Int(),
        },
    }
    ctx.AddItem(res) // 儲存到蜘蛛的Item處理佇列
}

這是一個函式,自動解析響應裡的Json資料,也就是剛才看的Ajax結果。解析完資料後儲存到蜘蛛的Item處理佇列。

發現新視訊

var findVideo goribot.CtxHandlerFun
findVideo = func(ctx *goribot.Context) {
    u := ctx.Req.URL.String()
    fmt.Println(u)
    if strings.HasPrefix(u, "https://www.bilibili.com/video/") { // 判斷是否為視訊頁面
        if strings.Contains(u, "?") {
            u = u[:strings.Index(u, "?")]
        }
        u = u[31:] // 擷取視訊中的BV號
        fmt.Println(u)

        // 建立一個從BV號獲取具體資料的任務,使用上一個策略
        ctx.AddTask(goribot.GetReq("https://api.bilibili.com/x/web-interface/view?bvid="+u), getVideoInfo)
    }
    ctx.Resp.Dom.Find("a[href]").Each(func(i int, sel *goquery.Selection) {
        if h, ok := sel.Attr("href"); ok {
            ctx.AddTask(goribot.GetReq(h), findVideo) // 用同樣的策略處理子頁面
        }
    })
}

收集Item

我們在獲取視訊資料裡獲取了Ajax資料,並儲存到Item佇列。我們在這裡處理這些Item以避免讀寫檔案和資料庫對爬取主執行緒的阻塞。

s.OnItem(func(i interface{}) interface{} {
    fmt.Println(i) // 我們暫時不做處理,就先列印出來
    return i
})

OnItem的具體使用要參考Goribot文件的相關內容。

最後 Run 吧

// 種子任務
s.AddTask(goribot.GetReq("https://www.bilibili.com/video/BV1at411a7RS"), findVideo)
s.Run()

完整程式碼如下

package main

import (
    "fmt"
    "github.com/PuerkitoBio/goquery"
    "github.com/zhshch2002/goribot"
    "strings"
)

func main() {
    s := goribot.NewSpider(
        goribot.Limiter(true, &goribot.LimitRule{
            Glob: "*.bilibili.com",
            Rate: 2,
        }),
        goribot.RefererFiller(),
        goribot.RandomUserAgent(),
        goribot.SetDepthFirst(true),
    )
    var getVideoInfo = func(ctx *goribot.Context) {
        res := map[string]interface{}{
            "bvid":  ctx.Resp.Json("data.bvid").String(),
            "title": ctx.Resp.Json("data.title").String(),
            "des":   ctx.Resp.Json("data.des").String(),
            "pic":   ctx.Resp.Json("data.pic").String(),   // 封面圖
            "tname": ctx.Resp.Json("data.tname").String(), // 分類名
            "owner": map[string]interface{}{ //視訊作者
                "name": ctx.Resp.Json("data.owner.name").String(),
                "mid":  ctx.Resp.Json("data.owner.mid").String(),
                "face": ctx.Resp.Json("data.owner.face").String(), // 頭像
            },
            "ctime":   ctx.Resp.Json("data.ctime").String(), // 建立時間
            "pubdate": ctx.Resp.Json("data.pubdate").String(), // 釋出時間
            "stat": map[string]interface{}{ // 視訊資料
                "view":     ctx.Resp.Json("data.stat.view").Int(),
                "danmaku":  ctx.Resp.Json("data.stat.danmaku").Int(),
                "reply":    ctx.Resp.Json("data.stat.reply").Int(),
                "favorite": ctx.Resp.Json("data.stat.favorite").Int(),
                "coin":     ctx.Resp.Json("data.stat.coin").Int(),
                "share":    ctx.Resp.Json("data.stat.share").Int(),
                "like":     ctx.Resp.Json("data.stat.like").Int(),
                "dislike":  ctx.Resp.Json("data.stat.dislike").Int(),
            },
        }
        ctx.AddItem(res)
    }
    var findVideo goribot.CtxHandlerFun
    findVideo = func(ctx *goribot.Context) {
        u := ctx.Req.URL.String()
        fmt.Println(u)
        if strings.HasPrefix(u, "https://www.bilibili.com/video/") {
            if strings.Contains(u, "?") {
                u = u[:strings.Index(u, "?")]
            }
            u = u[31:]
            fmt.Println(u)
            ctx.AddTask(goribot.GetReq("https://api.bilibili.com/x/web-interface/view?bvid="+u), getVideoInfo)
        }
        ctx.Resp.Dom.Find("a[href]").Each(func(i int, sel *goquery.Selection) {
            if h, ok := sel.Attr("href"); ok {
                ctx.AddTask(goribot.GetReq(h), findVideo)
            }
        })
    }
    s.OnItem(func(i interface{}) interface{} {
        fmt.Println(i)
        return i
    })
    s.AddTask(goribot.GetReq("https://www.bilibili.com/video/BV1at411a7RS").SetHeader("cookie", "_uuid=1B9F036F-8652-DCDD-D67E-54603D58A9B904750infoc; buvid3=5D62519D-8AB5-449B-A4CF-72D17C3DFB87155806infoc; sid=9h5nzg2a; LIVE_BUVID=AUTO7815811574205505; CURRENT_FNVAL=16; im_notify_type_403928979=0; rpdid=|(k|~uu|lu||0J'ul)ukk)~kY; _ga=GA1.2.533428114.1584175871; PVID=1; DedeUserID=403928979; DedeUserID__ckMd5=08363945687b3545; SESSDATA=b4f022fe%2C1601298276%2C1cf0c*41; bili_jct=2f00b7d205a97aa2ec1475f93bfcb1a3; bp_t_offset_403928979=375484225910036050"), findVideo)
    s.Run()
}

最後

爬蟲框架只是工具,重要的是人怎麼使用它。瞭解工具可以看專案_examples文件

本作品採用《CC 協議》,轉載必須註明作者和本文連結

相關文章