C#爬蟲，讓你不再覺得神祕

張缺缺發表於2020-12-20

原文網址 : https://www.cnblogs.com/ZhangQueque/p/14163406.html

1、使用第三方類庫 HtmlAgilityPack

官方網址：https://html-agility-pack.net/?z=codeplex、

// From File 從檔案獲取html資訊
var doc = new HtmlDocument();
doc.Load(filePath);

// From String 從字串獲取html資訊
var doc = new HtmlDocument();
doc.LoadHtml(html);

// From Web   從網址獲取html資訊
var url = "http://html-agility-pack.net/";
var web = new HtmlWeb();
var doc = web.Load(url);

1.1、這裡介紹一下最後一種用法

var web = new HtmlWeb();
var doc = web.Load(url);

在 web 中我們還可以設定cookie、headers等資訊，來處理一些特定的網站需求，比如需要登陸等。

1.2 用法解釋

網頁在你檢視網頁原始碼之後只是一段字串，而爬蟲所做的就是在這堆字串中，查詢到我們想要的資訊，挑選出來。
以往的篩選方法：正則（太麻煩了，寫起來有些頭疼）
HtmlAgilityPack 支援通過XPath來解析我們需要的資訊。

1.2.1 在哪裡找XPath？

網頁右鍵檢查

通過XPath就可以準確獲取你想要元素的全部資訊。

1.2.2 獲取選中Html元素的資訊？

獲取選中元素

var web = new HtmlWeb();
var doc = web.Load(url);
var htmlnode = doc?.DocumentNode?.SelectSingleNode("/html/body/header")

獲取元素資訊

htmlnode.InnerText;
htmlnode.InnerHtml;
//根據屬性取值
htmlnode?.GetAttributeValue("src", "未找到")

2、自己封裝的類庫

 /// <summary>
    /// 下載HTML幫助類
    /// </summary>
    public static class LoadHtmlHelper
    {
        /// <summary>
        /// 從Url地址下載頁面
        /// </summary>
        /// <param name="url"></param>
        /// <returns></returns>
        public async static ValueTask<HtmlDocument> LoadHtmlFromUrlAsync(string url)
        {
            HtmlWeb web = new HtmlWeb();
             return await
                 web?.LoadFromWebAsync(url);
        }

        /// <summary>
        /// 獲取單個節點擴充套件方法
        /// </summary>
        /// <param name="htmlDocument">文件物件</param>
        /// <param name="xPath">xPath路徑</param>
        /// <returns></returns>
        public static HtmlNode GetSingleNode(this HtmlDocument htmlDocument, string xPath)
        {
          return  htmlDocument?.DocumentNode?.SelectSingleNode(xPath);
        }

        /// <summary>
        /// 獲取多個節點擴充套件方法
        /// </summary>
        /// <param name="htmlDocument">文件物件</param>
        /// <param name="xPath">xPath路徑</param>
        /// <returns></returns>
        public static HtmlNodeCollection GetNodes(this HtmlDocument htmlDocument, string xPath)
        {
            return htmlDocument?.DocumentNode?.SelectNodes(xPath);
        }

     

        /// <summary>
        /// 獲取多個節點擴充套件方法
        /// </summary>
        /// <param name="htmlDocument">文件物件</param>
        /// <param name="xPath">xPath路徑</param>
        /// <returns></returns>
        public static HtmlNodeCollection GetNodes(this HtmlNode htmlNode, string xPath)
        {
            return htmlNode?.SelectNodes(xPath);
        }


        /// <summary>
        /// 獲取單個節點擴充套件方法
        /// </summary>
        /// <param name="htmlDocument">文件物件</param>
        /// <param name="xPath">xPath路徑</param>
        /// <returns></returns>
        public static HtmlNode GetSingleNode(this HtmlNode htmlNode, string xPath)
        {
            return htmlNode?.SelectSingleNode(xPath);
        }

        /// <summary>
        /// 下載圖片
        /// </summary>
        /// <param name="url">地址</param>
        /// <param name="filpath">檔案路徑</param>
        /// <returns></returns>
        public async static ValueTask<bool> DownloadImg(string url ,string filpath)
        {
            HttpClient httpClient = new HttpClient();
            try
            {
                var bytes = await httpClient.GetByteArrayAsync(url);
                using (FileStream fs = File.Create(filpath))
                {
                    fs.Write(bytes, 0, bytes.Length);
                }
                return File.Exists(filpath);
            }
            catch (Exception ex)
            {
             
                throw new Exception("下載圖片異常", ex);
            }
            
        }
    }

3、自己寫的爬蟲案例，爬取的網站https://www.meitu131.com/

資料儲存層沒有實現，懶得寫了，靠你們嘍，我是資料暫時存在了檔案中
GitHub地址：https://github.com/ZhangQueque/quewaner.Crawler.git

讓SpringBoot自動化配置不再神祕
2020-05-22
Spring Boot
Python爬蟲隨機UserAgent庫，讓你不再手動敲UA！
2020-12-05
Python爬蟲隨機
C#爬蟲與反爬蟲--字型加密篇
2019-06-26
C#爬蟲加密
《神祕島》的得與失
2020-03-09
@程式設計師，一文讓你掌握Python爬蟲！
2020-04-08
程式設計師Python爬蟲
ChatMoney讓你不再戀愛腦！
2024-06-26
C#爬蟲開發小結
2023-01-19
C#爬蟲
C#網路爬蟲開發
2023-02-12
C#爬蟲
你有自己寫過爬蟲的程式嗎？說說你對爬蟲和反爬蟲的理解？
2024-11-28
爬蟲
為什麼軟體開發方法論讓你覺得糟糕
2024-05-31
這個男人讓你的爬蟲開發效率提升8倍
2018-06-28
爬蟲
19個Python爬蟲專案讓你一次吃到撐
2021-11-16
Python爬蟲
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
百度地圖爬蟲(c#)
2018-09-09
地圖爬蟲C#
Python3網路爬蟲(十一)：爬蟲黑科技之讓你的爬蟲程式更像人類使用者的行為(代理IP池等)
2019-01-07
Python爬蟲
python爬蟲總是爬不到資料，你需要解決反爬蟲了
2020-06-26
Python爬蟲
C# 爬蟲—-Cookies處理(Set-Cookie)
2018-08-16
C#爬蟲Cookie
GodBlessYou: 讓你的應用不再崩潰
2019-03-04
Go
惡意爬蟲？能讓惡意爬蟲遁於無形的小Tips
2023-05-09
爬蟲
淺析--為什麼軟體開發方法論讓你覺得糟糕？
2020-10-22
帶你入門Python爬蟲，8個常用爬蟲技巧盤點
2018-08-06
Python爬蟲
（python）爬蟲----八個專案帶你進入爬蟲的世界
2021-07-17
Python爬蟲
如何讓爬蟲正確提取偽元素
2020-12-13
爬蟲
爬蟲必須得會的預備知識
2019-04-05
爬蟲
最新Python爬蟲和資料視覺化
2020-12-12
Python爬蟲視覺化
解讀爬蟲中HTTP的祕密（高階篇）
2018-04-25
爬蟲HTTP
解讀爬蟲中HTTP的祕密（基礎篇）
2018-04-21
爬蟲HTTP
爬蟲：多程式爬蟲
2021-05-19
爬蟲
小程式雲開發讓你不再加班
2018-11-18
軟體工程--為什麼軟體開發方法論讓你覺得糟糕
2020-10-29
軟體工程
資源整理 | 32個Python爬蟲專案讓你一次吃到撐
2018-03-03
Python爬蟲
聽說你的爬蟲被封了?
2019-04-23
爬蟲
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
誰說爬蟲只能Python？看我用C#快速簡單實現爬蟲開發和演示！
2024-05-27
爬蟲PythonC#
說說你做過讓你覺得最滿意的專案是什麼？為什麼？
2024-11-23
通用爬蟲與聚焦爬蟲
2023-04-18
爬蟲
爬蟲--Scrapy簡易爬蟲
2020-10-07
爬蟲
LibreOffice Calc 讓你的支出不再成為負擔
2023-11-06