C#網路爬蟲開發

王者天涯發表於2023-02-12

原文網址 : https://www.cnblogs.com/dotnet-college/p/17110810.html

C#爬蟲

1前言

爬蟲一般都是用Python來寫，生態豐富，動態語言開發速度快，除錯也很方便

但是

我要說但是，動態語言也有其侷限性，筆者作為老爬蟲帶師，幾乎各種語言都搞過，現在這個任務並不複雜，用我最喜歡的C#做小菜一碟~

2開始

之前做 OneCat 專案的時候，最開始的資料採集模組，就是用 C# 做的，同時還整合了 Chloe 作為 ORM，用 Nancy 做 HTTP 介面，結合 C# 強大的併發功能，做出來的效果不錯。

這次是要爬一些桌布，很簡單的場景，於是沿用了之前 OneCat 專案的一些工具類，並且做了一些改進。

3HttpHelper

網路請求直接使用 .Net Core 標準庫的 HttpClient，這個庫要求使用單例，在 AspNetCore 裡一般用依賴注入，不過這次簡單的爬蟲直接用 Console 程式就行。

把 HTML 爬下來後，還需要解析，在Python中一般用 BeautifulSoup，在C#裡可以用 AngleSharp ，也很好用~

為了使用方便，我又封裝了一個工具類，把 HttpClient 和 AngleSharp 整合在一起。

public static class HttpHelper {
    public const string UserAgent =
        "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36";

    public static HttpClientHandler Handler { get; }

    public static HttpClient Client { get; }

    static HttpHelper() {
        Handler = new HttpClientHandler();
        Client = new HttpClient(Handler);
        Client.DefaultRequestHeaders.Add("User-Agent", UserAgent);
    }

    public static async Task<IHtmlDocument> GetHtmlDocument(string url) {
        var html = await Client.GetStringAsync(url);
        // todo 這個用法有記憶體洩漏問題，得最佳化一下
        return new HtmlParser().ParseDocument(html);
    }

    public static async Task<IHtmlDocument> GetHtmlDocument(string url, string charset) {
        var res = await Client.GetAsync(url);
        var resBytes = await res.Content.ReadAsByteArrayAsync();
        var resStr = Encoding.GetEncoding(charset).GetString(resBytes);
        // todo 這個用法有記憶體洩漏問題，得最佳化一下
        return new HtmlParser().ParseDocument(resStr);
    }
}

這段程式碼裡面有倆 todo ，這個記憶體洩漏的問題在簡單的爬蟲中影響不大，所以後面有大規模的需求再來最佳化吧~

4搞HTML

大部分爬蟲是從網頁上拿資料

如果網頁是後端渲染出來的話，沒有js動態載入資料，基本上用CSS選擇器+正規表示式就可以拿到任何想要的資料。

經過前面的封裝，請求網頁+解析HTML只需要一行程式碼

IHtmlDocument data = await HttpHelper.GetHtmlDocument(url);

拿到 IHtmlDocument 物件之後，用 QuerySelector 傳入css選擇器，就可以拿到各種元素了。

例如這樣，取出 <li> 元素下所有連結的地址

var data = await HttpHelper.GetHtmlDocument(url);
foreach (var item in data.QuerySelectorAll(".pagew li")) {
    var link = item.QuerySelector("a");
    var href = link?.GetAttribute("href");
    if (href != null) await CrawlItem(href);
}

或者結合正規表示式

var data = await HttpHelper.GetHtmlDocument(url);
var page = data.QuerySelector(".pageinfo");
Console.WriteLine("拿到分頁資訊：{0}", page?.TextContent);
var match = Regex.Match(page?.TextContent ?? "", @"共\s(\d+)頁(\d+)條");
var pageCount = int.Parse(match.Groups[1].Value);
for (int i = 1; i <= pageCount; i++) {
    await CrawlPage(i);
}

正規表示式非常好用，爬蟲必備~

這裡再推薦一個好用的東西，菜鳥工具的線上正規表示式測試，拿到一個字串之後，先在測試器裡面寫出一個能匹配的正則，再放到程式裡，效率更高~

地址: https://c.runoob.com/front-end/854/

5JSON 處理

老生常談的問題了

JSON 在 web 開發中很常見，無論是介面互動，還是本地儲存資料，這都是一種很好的格式

.Net Core 自帶的 System.Text.Json 還不錯，不需要手動安裝依賴，沒有特殊需求的話，直接用這個就好了

這裡的場景是要把採集的資料存到 JSON 裡，即序列化，用以下的配置程式碼一把梭即可，可以應付大多數場景

var jsonOption = new JsonSerializerOptions {
    WriteIndented = true,
    Encoder = JavaScriptEncoder.UnsafeRelaxedJsonEscaping
};

寫入檔案

await File.WriteAllTextAsync("path", JsonSerializer.Serialize(data, jsonOption));

6下載檔案

最簡單就是直接用 HttpClient 獲取 Response，然後 CopyToAsync 寫到檔案流裡面

這個用法拿來下載幾個小檔案還可以，但多執行緒下載、斷點重連、失敗重試等方法就得自己實現了，比較繁瑣。

所以這次我直接用了第三方庫 Downloader，這個庫看起來很猛，功能很多，我就不翻譯了，詳情見專案主頁

專案地址: https://github.com/bezzad/Downloader

同樣的，我把下載的功能也封裝到 HttpHelper中

增加這部分程式碼

public static IDownloadService Downloader { get; }

public static DownloadConfiguration DownloadConf => new DownloadConfiguration {
    BufferBlockSize = 10240, // 通常，主機最大支援8000位元組，預設值為8000。
    ChunkCount = 8, // 要下載的檔案分片數量，預設值為1
    // MaximumBytesPerSecond = 1024 * 50, // 下載速度限制，預設值為零或無限制
    MaxTryAgainOnFailover = 5, // 失敗的最大次數
    ParallelDownload = true, // 下載檔案是否為並行的。預設值為false
    Timeout = 1000, // 每個 stream reader  的超時（毫秒），預設值是1000
    RequestConfiguration = {
        Accept = "*/*",
        AutomaticDecompression = DecompressionMethods.GZip | DecompressionMethods.Deflate,
        CookieContainer = new CookieContainer(), // Add your cookies
        Headers = new WebHeaderCollection(), // Add your custom headers
        KeepAlive = true,
        ProtocolVersion = HttpVersion.Version11, // Default value is HTTP 1.1
        UseDefaultCredentials = false,
        UserAgent = UserAgent
    }
};

static HttpHelper() {
    // ...
    Downloader = new DownloadService(DownloadConf);
}

使用方法依然是一行程式碼

await HttpHelper.Downloader.DownloadFileTaskAsync(url, filepath);

不過這次沒有直接封裝一個下載的方法，而是把 IDownloadService 物件做成屬性，因為下載的時候往往要加一些“buff”

比如監聽下載進度，看下面的程式碼

HttpHelper.Downloader.DownloadStarted += DownloadStarted;
HttpHelper.Downloader.DownloadFileCompleted += DownloadFileCompleted;
HttpHelper.Downloader.DownloadProgressChanged += DownloadProgressChanged;
HttpHelper.Downloader.ChunkDownloadProgressChanged += ChunkDownloadProgressChanged;

這個庫提供了四個事件，分別是：

下載開始
下載完成
下載進度變化
分塊下載進度變化

7進度條

有了這些事件，就可以實現下載進度條展示了，接下來介紹的進度條，也是 Downloader 這個庫官方例子中使用的

專案地址: https://github.com/Mpdreamz/shellprogressbar

首先，把官網上的例子忘記吧，那幾個例子實際作用不大。

Tick模式

這個進度條有兩種模式，一種是它自己的 Tick 方法，先定義總任務數量，執行一次表示完成一個任務，比如這個：

using var bar = new ProgressBar(10, "正在下載所有圖片", BarOptions);

上面程式碼定義了10個任務，每執行一次 bar.Tick() 就表示完成一次任務，執行10次後就整個完成~

`IProgress<T>` 模式

這個 IProgress<T> 是C#標準庫的型別，用來處理進度條的。

ProgressBar 物件可以使用 AsProgress<T> 方法轉換稱 IProgress<T> 物件，然後呼叫 IProgress<T> 的 Report 方法，報告進度。

這個就很適合下載進度這種非線性的任務，每次更新時，完成的進度都不一樣

Downloader的下載進度更新事件，用的是百分比，所以用這個 IProgress<T> 模式就很合適。

進度條巢狀

本爬蟲專案是要採集桌布，桌布的形式是按圖集組織的，一個圖集下可能有多個圖片

為了應對這種場景，可以用一個進度條顯示總進度，表示當前正在下載某個圖集

然後再巢狀子進度條，表示正在下載當前圖集的第n張圖片

然後的然後，再套娃一個孫子進度條，表示具體圖片的下載進度（百分比）

這裡用到的是 ProgressBar 的 Spawn 方法，會生成一個 ChildProgressBar 物件，此時更新子進度條物件的值就好了。

直接看程式碼吧

var list = // 載入圖集列表
using var bar = new ProgressBar(list.Count, "正在下載所有圖片", BarOptions);

foreach (var item in list) {
    bar.Message = $"圖集：{item.Name}";
    bar.Tick();

    foreach (var imgUrl in item.Images) {
        using (var childBar = bar.Spawn(item.ImageCount,$"圖片：{imgUrl}",ChildBarOptions)) {
            childBar.Tick();
            // 具體的下載程式碼
        }
    }
}

這樣就實現了主進度條顯示下載了第幾個圖集，子進度條顯示下載到第幾張圖片。

然後具體下載程式碼中，使用 Downloader 的事件監聽，再 Spawn 一個新的進度條顯示單張圖片的下載進度。

程式碼如下：

private async Task Download(IProgressBar bar, string url, string filepath) {
    var percentageBar = bar.Spawn(100, $"正在下載：{Path.GetFileName(url)}", PercentageBarOptions);

    HttpHelper.Downloader.DownloadStarted += DownloadStarted;
    HttpHelper.Downloader.DownloadFileCompleted += DownloadFileCompleted;
    HttpHelper.Downloader.DownloadProgressChanged += DownloadProgressChanged;

    await HttpHelper.Downloader.DownloadFileTaskAsync(url, filepath);

    void DownloadStarted(object? sender, DownloadStartedEventArgs e) {
        Trace.WriteLine(
            $"圖片, FileName:{Path.GetFileName(e.FileName)}, TotalBytesToReceive:{e.TotalBytesToReceive}");
    }

    void DownloadFileCompleted(object? sender, AsyncCompletedEventArgs e) {
        Trace.WriteLine($"下載完成, filepath:{filepath}");
        percentageBar.Dispose();
    }

    void DownloadProgressChanged(object? sender, DownloadProgressChangedEventArgs e) {
        percentageBar.AsProgress<double>().Report(e.ProgressPercentage);
    }
}

注意所有的 ProgressBar 物件都需要用完釋放，所以這裡在 DownloadFileCompleted 事件裡面 Dispose 了。

上面的是直接用 using 語句，自動釋放。

進度條配置

這個東西的自定義功能還不錯。

可以配置顏色、顯示字元、顯示位置啥的

var barOptions = new ProgressBarOptions {
    ForegroundColor = ConsoleColor.Yellow,
    BackgroundColor = ConsoleColor.DarkYellow,
    ForegroundColorError = ConsoleColor.Red,
    ForegroundColorDone = ConsoleColor.Green,
    BackgroundCharacter = '\u2593',
    ProgressBarOnBottom = true,
    EnableTaskBarProgress = RuntimeInformation.IsOSPlatform(OSPlatform.Windows),
    DisplayTimeInRealTime = false,
    ShowEstimatedDuration = false
};

EnableTaskBarProgress 這個選項可以同時更新Windows任務狀態列上的進度

具體配置選項可以直接看原始碼，裡面註釋很詳細。

如果 Spawn 出來的子進度條沒配置選項，那就會繼承上一級的配置。

8小結

用 C# 來做爬蟲還是舒服的，至少比 Java 好很多

做控制檯應用，打包成exe也方便分發

C#網路爬蟲開發

python3網路爬蟲開發實戰_Python 3開發網路爬蟲(一)
2020-12-07
Python爬蟲
網路爬蟲開發常用框架
2019-02-27
爬蟲框架
C#爬蟲開發小結
2023-01-19
C#爬蟲
《Python3網路爬蟲開發實戰》教程||爬蟲教程
2018-11-13
Python爬蟲
Python 3網路爬蟲開發實戰
2021-04-28
Python爬蟲
.NET使用分散式網路爬蟲框架DotnetSpider快速開發爬蟲功能
2023-12-08
分散式爬蟲框架IDE
[Python3網路爬蟲開發實戰] 分散式爬蟲原理
2019-12-08
Python爬蟲分散式
網路爬蟲專案開發日誌（三）：爬蟲上線準備
2022-02-02
爬蟲
《網路爬蟲開發實戰案例》筆記
2020-08-10
爬蟲筆記
Python3網路爬蟲開發實戰
2021-04-15
Python爬蟲
網路爬蟲
2018-12-07
爬蟲
網路爬蟲——爬蟲實戰（一）
2022-01-29
爬蟲
python3網路爬蟲開發實戰_Python3 爬蟲實戰
2022-01-24
Python爬蟲
《python3網路爬蟲開發實戰》--pyspider
2018-10-18
Python爬蟲IDE
網路爬蟲開發工具：Screaming Frog SEO Spider 「Mac」
2023-11-01
爬蟲IDEMac
python3網路爬蟲開發實戰pdf
2021-11-30
Python爬蟲
網路爬蟲示例
2018-10-30
爬蟲
網路爬蟲精要
2019-04-27
爬蟲
《Python3網路爬蟲開發實戰》開源啦！
2019-10-23
Python爬蟲
C#網路爬蟲之TianyaCrawler實戰經驗分享
2024-01-31
C#爬蟲
python網路爬蟲_Python爬蟲：30個小時搞定Python網路爬蟲視訊教程
2020-10-21
Python爬蟲
計算機書籍- 網路爬蟲開發實戰
2019-03-28
計算機爬蟲
《Python 3網路爬蟲開發實戰》chapter3
2019-07-09
Python爬蟲APT
python網路爬蟲應用_python網路爬蟲應用實戰
2020-12-29
Python爬蟲
[Python3網路爬蟲開發實戰] 2-爬蟲基礎 2-網頁基礎
2018-03-08
Python爬蟲網頁
網路爬蟲的原理
2018-12-02
爬蟲
python DHT網路爬蟲
2019-02-14
Python爬蟲
網路爬蟲專案
2022-01-29
爬蟲
[Python] 網路爬蟲與資訊提取（1）網路爬蟲之規則
2020-11-06
Python爬蟲
什麼是Python網路爬蟲?常見的網路爬蟲有哪些?
2020-11-27
Python爬蟲
[Python3網路爬蟲開發實戰] Charles 的使用
2019-12-08
Python爬蟲
[Python3網路爬蟲開發實戰] --Splash的使用
2019-06-10
Python爬蟲
python網路爬蟲（14）使用Scrapy搭建爬蟲框架
2019-07-27
Python爬蟲框架
手把手教你寫網路爬蟲（3）：開源爬蟲框架對比
2018-04-28
爬蟲框架
讀書筆記：《Python3網路爬蟲開發實戰》——第2章：爬蟲基礎
2019-04-09
筆記Python爬蟲
我的爬蟲入門書 —— 《Python3網路爬蟲開發實戰（第二版）》
2022-02-27
爬蟲Python
Python3網路爬蟲開發實戰——第1章開發環境
2022-02-02
Python爬蟲開發環境
python網路爬蟲（9）構建基礎爬蟲思路
2019-06-09
Python爬蟲

C#網路爬蟲開發

1前言

2開始

3HttpHelper

4搞HTML

5JSON 處理

6下載檔案

7進度條

Tick模式

IProgress<T> 模式

進度條巢狀

進度條配置

8小結

相關文章

`IProgress<T>` 模式