1.HtmlAgilityPack爬取優酷電影名

粥粥的狐狸發表於2018-04-23

原文網址 : https://flycode.co/archives/128811

爬蟲的製作主要分為三個方面
1、載入網頁結構
2、解析網頁結構，轉變為符合需求的資料實體
3、儲存資料實體（資料庫，文字等）

在實際的編碼過程中，找到了一個好的類庫“HtmlAgilityPack”。
介紹：
官網：http://html-agility-pack.net/?z=codeplex
Html Agility Pack原始碼中的類大概有28個左右，其實不算一個很複雜的類庫，但它的功能確不弱，為解析DOM已經提供了足夠強大的功能支援，可以跟jQuery操作DOM媲美)
使用說明：
Html Agility Pack（XPath 定位）,在實際使用過程中，發現有部分內容如果通過Css進行定位會比XPath更加方便，所以通過查詢找到了另外一個CSS的解析了類庫 ScrapySharp（Css 定位）

整理：
Nuget包需要引用的庫
1、Html Agility Pack（XPath 定位）
2、ScrapySharp（Css 定位）

程式碼下載地址：

https://github.com/happlyfox/FoxCrawler

第一點——載入網頁結構

Html Agility Pack封裝了載入內容的方法，使doc.Load(arguments),具有多種過載方式，以下列舉官網的三個例項

       /// <summary>
       /// 載入網頁結構
       /// </summary>
       private static void LoadDocment()
       {
           // 從檔案中載入
           var docFile = new HtmlDocument();
           docFile.Load("file path");

           // 從字串中載入
           var docHtml = new HtmlDocument();
           docHtml.LoadHtml("html");

           // 從網站中載入
           var url = "http://html-agility-pack.net/";
           var web = new HtmlWeb();
           var docWeb = web.Load(url);
       }

第二點——解析網頁結構，轉變為符合需求的資料實體

   /// <summary>
    /// 解析網頁結構
    /// </summary>
    private static YouKu ParsingWebStructure()
    {
        /*選用優酷片庫列表
         地址：http://list.youku.com/category/show/c_96_s_1_d_1_p_{index}.html 
        */

        //首先載入web內容
        var url = "http://list.youku.com/category/show/c_96_s_1_d_1_p_1.html";
        var web = new HtmlWeb();
        var doc = web.Load(url);

        //輸出WebHtml內容
        //Console.WriteLine(doc.DocumentNode.InnerHtml);

        /* HtmlAgilityPack 解析方式官網提供的有倆種示例*/
        //1、 With XPath 
        var value = doc.DocumentNode.SelectSingleNode("//*[@id=`total_videonum`]").Attributes["id"].Value;
        var resultCount = doc.DocumentNode.SelectSingleNode("//*[@id=`total_videonum`]").InnerText;

        Console.WriteLine($"id=`{value}` 篩選結果:{resultCount}個");
        // 2、With LINQ  
        var linqNodes = doc.DocumentNode.SelectSingleNode("//*[@id=`filterPanel`]/div[2]/ul").Descendants("li").ToList();

        Console.WriteLine("電影產地:");
        List<string> videoCountry = new List<string>();
        foreach (var node in linqNodes)
        {
            videoCountry.Add(node.InnerText);
            Console.Write($"{node.InnerText} 	");
        }

        //3、使用ScrapySharp進行Css定位
        var cssNodes = doc.DocumentNode.CssSelect("#filterPanel > div > label");
        Console.WriteLine();

        List<string> videoType = new List<string>();
        foreach (var node in cssNodes)
        {
            videoType.Add(node.InnerText);
            Console.Write($"{node.InnerText} 	");
        }

        //構造實體
        YouKu model = new YouKu()
        {
            id = value,
            videoNum = int.Parse(resultCount),
            videoCountry = videoCountry,
            videoType = videoType
        };

        return model;
    }


public class YouKu
{
    public string id { get; set; }

    public int videoNum { get; set; }

    public List<string> videoCountry { get; set; }
    public List<string> videoType { get; set; }
}

第三點——儲存資料實體，轉變為符合需求的資料實體

    /// <summary>
    /// 儲存資料實體
    /// </summary>
    private static void SavaData()
    {
        var model = ParsingWebStructure();
        var path = "youku.txt";

        if (!File.Exists(path))
        {
            File.Create(path);
        }

        File.WriteAllText(path, getJsonByObject(model));
    }

    private static string getJsonByObject(Object obj)
    {
        //例項化DataContractJsonSerializer物件，需要待序列化的物件型別
        DataContractJsonSerializer serializer = new DataContractJsonSerializer(obj.GetType());
        //例項化一個記憶體流，用於存放序列化後的資料
        MemoryStream stream = new MemoryStream();
        //使用WriteObject序列化物件
        serializer.WriteObject(stream, obj);
        //寫入記憶體流中
        byte[] dataBytes = new byte[stream.Length];
        stream.Position = 0;
        stream.Read(dataBytes, 0, (int)stream.Length);
        //通過UTF8格式轉換為字串
        return Encoding.UTF8.GetString(dataBytes);
    }

四 Main

  static void Main(string[] args)
    {
        ///爬蟲的製作主要分為三個方面
        ///1、載入網頁結構
        ///2、解析網頁結構，轉變為符合需求的資料實體
        ///3、儲存資料實體（資料庫，文字等）


        /*
         * 在實際的編碼過程中，找到了一個好的類庫“HtmlAgilityPack”。
         * 介紹：
         * 官網：http://html-agility-pack.net/?z=codeplex
         * Html Agility Pack原始碼中的類大概有28個左右，其實不算一個很複雜的類庫，但它的功能確不弱，為解析DOM已經提供了足夠強大的功能支援，可以跟jQuery操作DOM媲美)
         * 使用說明：
         * Html Agility Pack（XPath 定位）,在實際使用過程中，發現有部分內容如果通過Css進行定位會比XPath更加方便，所以通過查詢找到了另外一個CSS的解析了類庫 ScrapySharp（Css 定位）
         * 整理：
         * Nuget包需要引用的庫
         * 1、Html Agility Pack（XPath 定位）
         * 2、ScrapySharp（Css 定位）
         */


        //第一點——載入網頁結構,Html Agility Pack封裝了載入內容的方法，使用doc.Load(arguments),具有多種過載方式，以下列舉官網的三個例項
        //LoadDocment();

        //第二點——解析網頁結構，轉變為符合需求的資料實體
        //ParsingWebStructure();

        //第三點——儲存資料實體，轉變為符合需求的資料實體
        SavaData();
        Console.Read();
    }

手把手教你爬取優酷電影資訊-2
2021-02-26
手把手教你爬取優酷電影資訊 -1
2021-02-26
Python爬取電影天堂
2018-11-01
Python
擼個爬蟲，爬取電影種子
2019-05-11
爬蟲
scrapy爬取豆瓣電影資料
2021-09-11
使用Scrapy抓取優酷視訊列表頁（電影/電視）
2019-02-16
爬蟲如何爬取貓眼電影TOP榜資料
2019-06-17
爬蟲
爬蟲01:爬取豆瓣電影TOP 250基本資訊
2020-12-29
爬蟲
python爬取貓眼正在熱映電影
2019-03-04
Python
Python爬取分析豆瓣電影Top250
2018-09-07
Python
python 爬取飄花電影下載地址
2020-11-22
Python
使用python爬取豆瓣電影TOP250
2021-03-11
Python
python 爬蟲 1 爬取酷狗音樂
2020-03-29
Python爬蟲
Python爬蟲例項：爬取貓眼電影——破解字型反爬
2019-02-26
Python爬蟲
Python爬蟲筆記（4）：利用scrapy爬取豆瓣電影250
2018-11-10
Python爬蟲筆記
Python爬蟲教程-17-ajax爬取例項（豆瓣電影）
2018-09-06
Python爬蟲
python爬蟲爬取豆瓣電影 1-10 ajax 資料
2024-07-04
Python爬蟲
scrapy入門：豆瓣電影top250爬取
2019-02-16
python更換代理爬取豆瓣電影資料
2019-08-03
Python
Python3爬取貓眼電影資訊
2020-11-06
Python
爬取豆瓣電影Top250和資料分析
2022-06-20
python爬取貓眼電影top100儲存到CSV
2018-08-25
Python
正規表示式_爬取豆瓣電影排行Top250
2021-07-07
電影名解釋
2024-11-10
Python網路爬蟲實踐案例：爬取貓眼電影Top100
2024-11-21
Python爬蟲
Python網路爬蟲（正則, 內涵段子，貓眼電影, 鏈家爬取）
2018-10-30
Python爬蟲
python-爬蟲-css提取-寫入csv-爬取貓眼電影榜單
2023-04-05
Python爬蟲CSS
撿了滑鼠開網咖系列——nodejs爬取電影連結
2018-10-24
NodeJS
nodejs爬蟲獲取漫威超級英雄電影海報
2018-05-12
NodeJS爬蟲
Python爬蟲訓練：爬取酷燃網視訊資料
2020-10-23
Python爬蟲
【python爬蟲案例】利用python爬取豆瓣電影TOP250評分排行資料！
2024-09-18
Python爬蟲
如何使用 python 爬取酷我線上音樂
2022-04-09
Python
Python反爬：利用js逆向和woff檔案爬取貓眼電影評分資訊
2022-01-30
PythonJS
手把手教你網路爬蟲（爬取豆瓣電影top250，附帶原始碼）
2023-03-04
爬蟲原始碼
Java爬取並下載酷狗TOP500歌曲
2019-01-03
Java
Java爬蟲系列之實戰：爬取酷狗音樂網 TOP500 的歌曲
2019-05-27
Java爬蟲
Python爬取豆瓣電影的短評資料並進行詞雲分析處理
2019-01-05
Python
python爬蟲學習01--電子書爬取
2020-07-13
Python爬蟲

1.HtmlAgilityPack爬取優酷電影名

第一點——載入網頁結構

第二點——解析網頁結構，轉變為符合需求的資料實體

第三點——儲存資料實體，轉變為符合需求的資料實體

四 Main

相關文章