C#爬取動態網頁上的資訊：B站主頁

二次元攻城狮發表於2024-09-27

原文網址 : https://www.cnblogs.com/timefiles/p/18436160

C#網頁

簡介
獲取 HTML 文件
解析 HTML 文件
測試
參考文章

簡介

動態內容網站使用 JavaScript 指令碼動態檢索和渲染資料，爬取資訊時需要模擬瀏覽器行為，否則獲取到的原始碼基本是空的。爬取步驟如下：

使用 Selenium 獲取渲染後的 HTML 文件
使用 HtmlAgilityPack 解析 HTML 文件

新建專案，安裝需要的庫：

Selenium.WebDriver
HtmlAgilityPack

獲取 HTML 文件

需要注意的主要是以下2點：

設定瀏覽器啟動引數：無頭模式、禁用GPU加速、設定啟動時視窗大小
等待頁面動態載入完成：等待5秒鐘，設定一個合適的時間即可

private static string GetHtml(string url)
{
    ChromeOptions options = new ChromeOptions();
    // 不顯示瀏覽器
    options.AddArgument("--headless");
    // GPU加速可能會導致Chrome出現黑屏及CPU佔用率過高
    options.AddArgument("--nogpu");
    // 設定chrome啟動時size大小
    options.AddArgument("--window-size=10,10");

    using (var driver = new ChromeDriver(options))
    {
        try
        {
            driver.Manage().Window.Minimize();
            driver.Navigate().GoToUrl(url);
            // 等待頁面動態載入完成
            Thread.Sleep(5000);
            // 返回頁面原始碼
            return driver.PageSource;
        }
        catch (NoSuchElementException)
        {
            Console.WriteLine("找不到該元素");
            return string.Empty;
        }
    }
}

解析 HTML 文件

這裡以B站為例，爬取B站UP主主頁上的影片資訊，如影片的標題、連結、封面。
先定義一個類來儲存資訊：

class VideoInfo
{
    public string Title { get; set; }
    public string Href { get; set; }
    public string ImgUrl { get; set; }
}

定義解析函式，返回影片資訊列表：

private static List<VideoInfo> GetVideoInfos(string url)
{
    List<VideoInfo> videoInfos = new List<VideoInfo>();

    // 載入文件
    var html = GetHtml(url);
    var htmlDoc = new HtmlDocument();
    htmlDoc.LoadHtml(html);

    // 解析文件，先定位到影片列表標籤
    var xpath = "/html/body/div[2]/div[4]/div/div/div[1]/div[2]/div/div";
    var htmlNodes = htmlDoc.DocumentNode.SelectNodes(xpath);

    // 迴圈解析它的子節點影片資訊
    foreach (var node in htmlNodes)
    {
        var titleNode = node.SelectSingleNode("a[2]");
        var imgNode = node.SelectSingleNode("a[1]/div[1]/picture/source[1]");

        var title = titleNode.InnerText;
        var href = titleNode.Attributes["href"].Value.Trim('/');
        var imgUrl = imgNode.Attributes["srcset"].Value.Split('@')[0].Trim('/');

        videoInfos.Add(new VideoInfo
        {
            Title = title,
            Href = href,
            ImgUrl = imgUrl
        });
    }
    return videoInfos;
}

影片列表標籤的 XPath 路徑是透過瀏覽器除錯工具，在指定標籤上右鍵 複製完整的XPath 得到：

分析程式碼中的 node 節點時，html文字格式可能很亂，可以透過線上 HTML 程式碼格式化 工具格式後再進行分析。

測試

以B站UP主 星瞳_Official 為例，爬取影片資訊：

static void Main(string[] args)
{
    var url = @"https://space.bilibili.com/401315430";
    var videoInfos = GetVideoInfos(url);
    foreach (var videoInfo in videoInfos)
    {
        Console.WriteLine(videoInfo.Title);
        Console.WriteLine(videoInfo.Href);
        Console.WriteLine(videoInfo.ImgUrl);
        Console.WriteLine();
    }
    Console.ReadKey();
}

結果如下：

等一下，好妹妹
www.bilibili.com/video/BV1uyxLeJEM9
i0.hdslb.com/bfs/archive/46a15065d1b6722a04696ffaaa2235287ceaa452.jpg

一口一個?你的超甜辣椒
www.bilibili.com/video/BV1AQsDeiEn1
i0.hdslb.com/bfs/archive/d93d47d67323ee284483e963ffed34fb9884cf61.jpg

這裡只是演示爬取動態頁面的方法，如果想獲取B站UP主的影片資訊，建議直接使用 API 請求資料。

參考文章

使用 C#語言進行網頁抓取的終極指南
C# 寫個小爬蟲，實現爬取js載入後的網頁
Html Agility Pack 文件
[ 長期更新 ] C# Selenium 常用操作程式碼

ferret 爬取動態網頁
2019-12-15
網頁
Puppeteer 實戰-爬取動態生成的網頁
2018-11-10
網頁
網站主網頁修改，如何更新網站主頁內容
2024-12-06
網站網頁
python 爬蟲如何爬取動態生成的網頁內容
2024-10-31
Python爬蟲網頁
如何用python爬蟲分析動態網頁的商品資訊？
2021-09-11
Python爬蟲網頁
Puppeteer爬取網頁資料
2019-03-22
網頁
Python 爬取網頁中JavaScript動態新增的內容（一）
2018-09-28
Python網頁JavaScript
Python 爬取網頁中JavaScript動態新增的內容（二）
2018-09-28
Python網頁JavaScript
爬蟲——網頁爬取方法和網頁解析方法
2020-12-07
爬蟲網頁
爬取網頁文章
2021-09-29
網頁
利用requests+BeautifulSoup爬取網頁關鍵資訊
2018-11-13
網頁
Python筆記：網頁資訊爬取簡介（一）
2020-11-11
Python筆記網頁
靜態網頁與動態網頁的區別
2019-03-13
網頁
怎樣修改公司網站主頁？
2024-10-18
網站
Python 爬取網頁資料的兩種方法
2023-02-15
Python網頁
node：爬蟲爬取網頁圖片
2019-02-16
爬蟲網頁
關於python爬取網頁
2021-03-10
Python網頁
「無程式碼」高效的爬取網頁資料神器
2021-10-18
網頁
是時候 Get 新技能了：使用 Java 爬取網頁資訊
2019-01-27
Java網頁
爬取子頁
2018-08-24
python實現微博個人主頁的資訊爬取
2021-01-03
Python
結合LangChain實現網頁資料爬取
2024-07-18
LangChain網頁
python爬取網頁詳細教程
2021-09-11
Python網頁
動態網站的爬取
2018-08-29
網站
公司網站修改？網站主頁修改方案模板？
2024-10-16
網站
zf_利用feapder中的selenium網頁爬取資料
2024-06-03
網頁
爬蟲進階——動態網頁Ajax資料抓取（簡易版）
2024-04-12
爬蟲網頁
Python爬取網頁的所有內外鏈
2021-04-09
Python網頁
爬蟲Selenium+PhantomJS爬取動態網站圖片資訊（Python）
2018-03-24
爬蟲JS網站Python
初識Scrapy框架+爬蟲實戰(7)-爬取鏈家網100頁租房資訊
2018-06-12
框架爬蟲
自學python網路爬蟲，從小白快速成長，分別實現靜態網頁爬取，下載meiztu中圖片；動態網頁爬取，下載burberry官網所有當季新品圖片。
2020-02-06
Python爬蟲網頁
Python網路爬蟲之爬取淘寶網頁頁面 MOOC可以執行的程式碼
2018-11-24
Python爬蟲網頁
用Jupyter—Notebook爬取網頁資料例項14
2020-12-01
網頁
用Jupyter—Notebook爬取網頁資料例項12
2020-12-01
網頁
如何使用python進行網頁爬取?
2020-08-06
Python網頁
Python網路爬蟲抓取動態網頁並將資料存入資料庫MYSQL
2019-01-04
Python爬蟲網頁資料庫MySql
爬蟲例項-淘寶頁面商品資訊獲取
2020-10-08
爬蟲
Python爬蟲教程-12-爬蟲使用cookie爬取登入後的頁面(人人網)（上）
2018-09-06
Python爬蟲Cookie

C#爬取動態網頁上的資訊：B站主頁

簡介

獲取 HTML 文件

解析 HTML 文件

測試

參考文章

相關文章