c#解析HTML

yubinfeng發表於2014-06-07

當我們需要解析一個web頁面的時候，如果非常簡單，可以用字串查詢的方式，複雜一點可以用正規表示式，但是有時候正則很麻煩的，因為html程式碼本身就比較麻煩，像常用的img標籤，這個東東到了瀏覽器上就沒了閉合標籤（一直還沒搞懂為什麼），想用XML解析，也是同樣的原因根本解析不了，今天發現一個解析html控制元件，用了一下，非常好用。

這個控制元件叫做Html Agility Pack，主頁在這兒：http://htmlagilitypack.codeplex.com/

這兒還有一篇blog介紹怎麼使用的 (English)：http://olussier.net/2010/03/30/easily-parse-html-documents-in-csharp/

我直接把例子貼這兒，一看就明白。因為是作為xml解析的，所以呢，少不了XPath，如果不懂這個東西的話，趕緊看看吧，現在xpath語法都擴充套件到css裡面了，語法比較簡單，先看看基礎的就行了。

最基本的使用方法不是SelectSingleNode，而是GetElementById，這是與XmlDocument不同的地方。

// The HtmlWeb class is a utility class to get the HTML over HTTP
HtmlWeb htmlWeb = new HtmlWeb();
  
// Creates an HtmlDocument object from an URL
HtmlAgilityPack.HtmlDocument document = htmlWeb.Load("http://www.somewebsite.com");
  
// Targets a specific node
HtmlNode someNode = document.GetElementbyId("mynode");
  
// If there is no node with that Id, someNode will be null
if (someNode != null)
{
  // Extracts all links within that node
  IEnumerable<htmlnode> allLinks = someNode.Descendants("a");
  
  // Outputs the href for external links
  foreach (HtmlNode link in allLinks)
  {
    // Checks whether the link contains an HREF attribute
    if (link.Attributes.Contains("href"))
    {
      // Simple check: if the href begins with "http://", prints it out
      if (link.Attributes["href"].Value.StartsWith("http://"))
        Console.WriteLine(link.Attributes["href"].Value);
    }
  }
}</htmlnode>

使用xpath

// Extracts all links under a specific node that have an href that begins with "http://"
HtmlNodeCollection allLinks = document.DocumentNode.SelectNodes("//*[@id='mynode']//a[starts-with(@href,'http://')]");
  
// Outputs the href for external links
foreach (HtmlNode link in allLinks)
    Console.WriteLine(link.Attributes["href"].Value);

One more

path = "//table[@id='1' or @id='2' or @id='3']//a[@onmousedown]"; 
xpath = "//ul[@id='wg0']//li[position()<4]/h3/a"; 
xpath = "//div[@class='resitem' and position()<4]/a";
xpath = "//li[@class='result' and position()<4]/a";

使用方法：

剛剛學習了XPath路徑表示式，主要是對XML文件中的節點進行搜尋，通過XPath表示式可以對XML文件中的節點位置進行快速定位和訪問，html也是也是一種類似於xml的標記語言，但是語法沒有那麼嚴謹，在codeplex裡有一個開源專案HtmlAgilityPack，提供了用XPath解析HTML檔案，下面掩飾如何使用該類庫的使用

首先說下XPath路徑表示式

XPath路徑表示式

　　用來選取XML文件中的節點或節點集的

　　1、術語：節點（Node）：7種型別：元素，屬性，文字，名稱空間，處理命令，註釋，文件（根）節點

　　2、節點關係：父（Parent），子（Children），同胞（Sibling），先輩（Ancestor），後代（Descendant）

　　3、路徑表示式

　　　nodename　　節點名，選取此節點的所有子節點　　例： childnode　　當前節點中的childnode子節點，不包含孫子及以下的節點

　　　　　　/　　　從根節點選取　　例：/root/childnode/grandsonnode　　

　　　　　 //　　　表示所有後代節點　　例：//childnode　　　　所有名為childnode的後代節點

　　　　　　.　　　　表示當前節點　　例：　　./childnode　　　　表示當前節點的childnode節點

　　　　　　..　　　表示父節點　　例：　　../nearnode　　　　表示父親節點的nearnode子節點

　　　　　@　　　　選取屬性　　/root/childnode/@id　　　　　表示childnode的所有含有id屬性的節點集

　　4、謂語（Predicates）

　　　　謂語可以對節點集進行一些限制，使選擇更精確

　　　　　　/root/book[1]　　　　節點集中的第一個節點

　　　　　　/root/book[last()]　　節點集中最後一個節點

　　　　　　/root/book[position() - 1]　　節點集中倒數第二個節點集

　　　　　　/root/book[position() < 5]　　節點集中前五個節點集

　　　　　　/root/book[@id]　　　　　　節點集中含有屬性id的節點集

　　　　　　/root/book[@id='chinese']　　節點集中id屬性值為chinese的節點集

　　　　　　/root/book[price > 35]/title　　節點集中book的price元素值大於35的title節點集

　　5、萬用字元：XPath路徑中同樣支援萬用字元（*，@*，node()， text()）

　　　　例：　　/bookstore/*

　　　　　　　　//title[@*]

　　6、XPath軸

　　　　定義相對於當前節點的節點集

　　　　　　ancestor　　　　所有祖先節點

　　　　　　attribute　　　　所有屬性節點

　　　　　　child　　　　　　所有子元素

　　　　　　descendant　　所有後代節點（子，孫。。。）

　　　　　　following　　　　結束標記後的所有節點　　　　　　preceding　　　開始標記前的所有節點

　　　　　　following-sibling　　結束標記後的所有同胞節點

　　　　　　preceding-sibling　　開始標記前的所有同胞節點

　　　　　　namespace　　　當前名稱空間的所有節點

　　　　　　parent　　　　　父節點

　　　　　　self　　　　　　當前節點

　　　　用法：軸名稱::節點測試[謂語]

　　　　　　例：　　ancestor::book

　　　　　　　　　 child::text()

　　7、運算子

　　　　|　　兩個節點集的合併　　例：/root/book[1] | /root/book[3]

　　　　+，-，*，dev，mod

　　　　=，!=，<，>，<=，>=

　　　　or，and　　或和與

//刪除註釋，script，style
    node.Descendants()
                .Where(n => n.Name == "script" || n.Name == "style" || n.Name=="#comment")
                .ToList().ForEach(n => n.Remove());


    //遍歷node節點的所有後代節點
    foreach(var HtmlNode in node.Descendants())
    {
        
    }

HtmlAgilityPack類庫用法

　　1、首先需要獲取到html頁面資料，可以通過WebRequest類來獲取

public static string GetHtmlStr(string url)
        {    
            try
            {
                WebRequest rGet = WebRequest.Create(url);
                WebResponse rSet = rGet.GetResponse();
                Stream s = rSet.GetResponseStream();
                StreamReader reader = new StreamReader(s, Encoding.UTF8);
                return reader.ReadToEnd();
            }
            catch (WebException)
            {
                //連線失敗
                return null;
            }
        }

　2、通過HtmlDocument類載入html資料

        string htmlstr = GetHtmlStr("http://www.hao123.com");
        HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
        doc.LoadHtml(htmlstr);
        HtmlNode rootnode = doc.DocumentNode;    //XPath路徑表示式，這裡表示選取所有span節點中的font最後一個子節點，其中span節點的class屬性值為num
        //根據網頁的內容設定XPath路徑表示式
        string xpathstring = "//span[@class='num']/font[last()]";    
        HtmlNodeCollection aa = rootnode.SelectNodes(xpathstring);    //所有找到的節點都是一個集合
        
        if(aa != null)
        {
            string innertext = aa[0].InnerText;
            string color = aa[0].GetAttributeValue("color", "");    //獲取color屬性，第二個引數為預設值
            //其他屬性大家自己嘗試
        }

也可以通過HtmlWeb類來獲得HtmlDocument

  HtmlWeb web = new HtmlWeb();
        HtmlAgilityPack.HtmlDocument doc = web.Load(url);
        HtmlNode rootnode = doc.DocumentNode;

補充：

　　多個屬性條件查詢　　　　　　//div[@align='center' and @height='24']

　　不存在class屬性　　　　　　//div[not(@class)]

使用C#和HtmlAgilityPack解析HTML
2017-07-25
C#HTML
C# 解析網頁HTML用HtmlAgilityPack外掛
2019-07-24
C#網頁HTML
HTML解析
2017-04-18
HTML
解析-HTML 解析器
2019-02-20
HTML
Html 解析利器-goquery
2021-04-18
HTMLGo
iOS TFHpple解析html
2017-11-08
iOSHTML
C# XML解析
2018-03-30
C#XML
C#將html轉pdf
2020-04-04
C#HTML
golang解析html出錯
2017-01-12
GolangHTML
Python 3 解析 html
2017-11-20
PythonHTML
HTML解析元件HtmlAgilityPack使用
2013-09-15
HTML元件
C# 將HTML轉為XML
2022-06-15
C#HTMLXML
C#獲取HTML原始碼
2024-03-23
C#HTML原始碼
html新增結構元素解析
2018-01-17
HTML
Html5 History API解析
2015-04-16
HTMLAPI
C# 解析 Torrent 檔案
2008-09-02
C#
C#解析XML檔案
2012-08-04
C#XML
C#抓取網頁HTML內容
2014-07-14
C#網頁HTML
iOS 輕量級 HTML 解析方案
2019-01-22
iOSHTML
【Java】Jsoup 解析HTML報告
2024-08-02
JavaJSHTML
C#中屬性的解析
2019-08-03
C#
深入解析C#精彩書評
2010-06-24
C#
asp.net (C#)生成html檔案
2009-02-05
ASP.NETC#HTML
使用Jsoup解析Html == TextView顯示html圖片的方法
2016-06-06
JSHTMLTextView
Python解析XML檔案生成HTML
2019-02-16
PythonXMLHTML
爬蟲-使用lxml解析html資料
2021-01-20
爬蟲XMLHTML
Java正則解析HTML一例
2016-03-03
JavaHTML
C#解析Matrix Marke資料格式
2021-09-09
C#
C# 變數初始化解析
2021-04-30
C#變數
C#解析JSON字串總結
2018-11-29
C#JSON字串
C#操作符??，?，?:功能解析
2019-01-24
C#
C#系統快取全解析
2014-08-12
C#快取
C#/VB.NET 將RTF轉為HTML
2022-04-15
C#HTML
C#/VB.NET 將Html轉為Excel
2022-03-18
C#HTMLExcel
[HTML編輯器]C#編寫的HTML編輯器：原理篇
2009-12-23
HTMLC#
Java爬蟲利器HTML解析工具-Jsoup
2019-06-21
Java爬蟲HTMLJS
深入解析webpack 外掛html-webpack-plugin
2018-11-27
WebHTMLPlugin
瀏覽器是如何解析html的？
2018-12-23
瀏覽器HTML

c#解析HTML

相關文章