一個Python小白5個小時爬蟲經歷【續】

丶Pz發表於2017-02-21

前言

　　昨天實現了python簡單的資料採集之後本來還挺高興的，結果發現在.NET讀取txt檔案後反序列化總是報錯。具體錯誤原因好像是從txt讀取資料之後會自動加一個隱藏的字串，沒錯，肉眼看不見，就導致不是合法的json格式，最終失敗。不說了，反序列化浪費了我大量的時間，下面進入正題。

程式碼重構

　　問題就出來儲存上，所以儲存的檔案我首先把 .txt 換成 .json 檔案，後來在仔細看生成的文件，發現少了中括號[]和每條資料之間的逗號。於是乎，修改後的程式碼如下。

import match
import os
import datetime
import json

def writeToTxt(list_name,file_path):
    try:
        #這裡直接write item 即可，不要自己給序列化在寫入，會導致json格式不正確的問題
        fp = open(file_path,"w+",encoding='utf-8')
        l = len(list_name)
        i = 0
        #新增左中括號
        fp.write('[')
        for item in list_name:
            #直接將專案write到 json檔案中
            fp.write(item)
            #新增每一項之間的逗號
            if i<l-1:
                fp.write(',\n')
            i += 1
        fp.write(']')
        #新增右中括號
        fp.close()
    except IOError:
        print("fail to open file")

#def getStr(item):
#之前用這段程式碼處理item，後來發現，不用處理，直接儲存反而更好，自己處理了，會導致部落格中亂七八糟的字元影響反序列化
#   return str(item).replace('\'','\"')+',\n'

def saveBlogs():
    for i in range(1,2):
        print('request for '+str(i)+'...')
        blogs = match.blogParser(i,10)
        #儲存到檔案
        path = createFile()
        writeToTxt(blogs,path+'/blog_'+ str(i) +'.json')
        print('第'+ str(i) +'頁已經完成')
    return 'success'

def createFile():
    date = datetime.datetime.now().strftime('%Y-%m-%d')
    path = '/'+date
    if os.path.exists(path):
        return path
    else:
        os.mkdir(path)
        return path

result = saveBlogs()
print(result)

　　最終生成了完美的json。下圖只貼上其中一項，當然是我昨天發的那篇啦。PS 前篇地址：http://www.cnblogs.com/panzi/p/6421826.html

轉戰.NET CORE

　　終於把資料格式搞定了。下面就是到資料的事情了，很簡單，不過在寫程式碼過程中順便看了一下 .NET Core的檔案系統[3]：由PhysicalFileProvider構建的物理檔案系統。然後進行實戰。首先，json都存放在在檔案中，肯定要遍歷檔案了。

　　從那篇部落格中copy部分程式碼，來實現檔案系統的訪問和解析。

　　定義IFileManager 介面

public interface IFileManager
    {
        /// <summary>
        /// 讀取檔案，獲取檔案內容
        /// </summary>
        /// <param name="fileHandler"></param>
        void HandleFile(Action<string> fileHandler);
    }

　　然後實現介面內容，主要呢，第一，遍歷資料夾得到檔案，然後輸出相應的檔案內容。第二，反序列化文字內容轉成實體。第三，加入到Elastisearch中。

　　　　 public IFileProvider FileProvider { get; private set; }

        public FileManager(IFileProvider fileProvider)
        {
            this.FileProvider = fileProvider;
        }

        public void HandleFile(Action<string> fileHandler)
        {
            //通過FileProvider讀取檔案，遍歷
            foreach (var fileInfo in this.FileProvider.GetDirectoryContents(""))
            {
                //讀取檔案內容（json）
                string result = ReadAllTextAsync(fileInfo.Name).Result;
                //執行處理
                fileHandler(result);
            }


        }

　　以上為FileManger部分程式碼。

　　然後反序列化得到的文字內容。

  　　　　   //遍歷已經蒐集好的json文件
            manager.HandleFile(json =>
            {
                //反序列化得到實體
                var entities = serializer.JsonToEntities<DotNetLive.Search.Entities.CnBlogs.Blog>(json);
                //批量新增到ES中
                int result = search.IndexMany(entities);

                Console.WriteLine("加入" + result + "資料");
            });

　　當然，程式啟動的時候要註冊相應的服務。

　　　　public static IServiceProvider RegisterServices() {

            string folder = DateTime.Now.ToString("yyyy-MM-dd");
            var service = new ServiceCollection()
                //定位到資料夾，當前日期
               .AddSingleton<IFileProvider>(new PhysicalFileProvider($@"D:\{folder}"))
               .AddSingleton<IFileManager, FileManager>()
               //序列化器 
               .AddSingleton<ISerializer,CnBlogsSerializer>()
               .BuildServiceProvider();
            return service;    
        }

執行結果

　　至於為什麼是180條，因為我在python獲取介面的時候寫的是 for in range(1,10),每次請求介面返回20條，請求了9次，然後合併成一個json檔案儲存。

　　好的，最後在看一下ES中的資料：

總結

　　紙上得來終覺淺，絕知此事要躬行。這句話一點沒錯，看和做真是兩碼事。不過還好，資料採集階段就告一段落了。不扯了，跑程式去了。小夥伴們下期再見。

　　github程式碼參見：https://github.com/dotnetlive/dotnetlive.search/tree/master/src/Tools/cnblogs PS：有興趣的小夥伴可以加入dotnetlive團隊。無薪，可學習，哈哈。

python網路爬蟲_Python爬蟲：30個小時搞定Python網路爬蟲視訊教程
2020-10-21
Python爬蟲
一個前端小白的"爬蟲"初試
2018-08-05
前端爬蟲
Python爬蟲小專案：爬一個圖書網站
2018-11-21
Python爬蟲網站
初探python之做一個簡單小爬蟲
2019-03-02
Python爬蟲
python爬蟲初探--第一個python爬蟲專案
2018-05-18
Python爬蟲
爬蟲——三個小實戰
2018-09-21
爬蟲
分散式爬蟲很難嗎？用Python寫一個小白也能聽懂的分散式知乎爬蟲
2018-05-04
分散式爬蟲Python
Python 第一個爬蟲，爬取 147 小說
2020-05-08
Python爬蟲
一個簡單的python爬蟲程式
2016-05-13
Python爬蟲
5 個用 Python 編寫 web 爬蟲的方法
2018-05-20
PythonWeb爬蟲
送給Python小白學習爬蟲的小專案
2020-04-12
Python爬蟲
一個程式設計師經歷的7小時全身麻醉
2020-07-13
程式設計師
第一隻python小爬蟲
2015-03-24
Python爬蟲
[python 爬蟲]第一個Python爬蟲，爬取某個新浪部落格所有文章並儲存為doc文件
2017-03-16
Python爬蟲
一天時間入門python爬蟲，直接寫一個爬蟲案例，分享出來，很簡單
2018-12-02
Python爬蟲
Python爬蟲和java爬蟲哪個效率高
2023-10-12
Python爬蟲Java
《用Python寫網路爬蟲》--編寫第一個網路爬蟲
2017-03-30
Python爬蟲
我的第一個Python爬蟲——談心得
2018-03-30
Python爬蟲
之前用的一個多程式python爬蟲
2017-08-25
Python爬蟲
爬蟲：如何判斷一個網頁已經更新？
2019-04-04
爬蟲網頁
java實現一個簡單的爬蟲小程式
2020-08-11
Java爬蟲
使用nodeJS寫一個簡單的小爬蟲
2018-12-25
NodeJS爬蟲
小白學 Python 爬蟲（25）：爬取股票資訊
2019-12-24
Python爬蟲
python爬蟲58同城（多個資訊一次爬取）
2018-11-04
Python爬蟲
33個Python爬蟲專案
2017-12-11
Python爬蟲
python爬蟲-33個Python爬蟲專案實戰(推薦)
2020-10-28
Python爬蟲
8個Python爬蟲框架，你知道幾個?
2021-07-21
Python爬蟲框架
Python爬蟲入門，8個常用爬蟲技巧盤點
2018-12-12
Python爬蟲
小白學python－爬蟲常用庫
2018-01-24
Python爬蟲
每天一個爬蟲-learnku
2021-06-16
爬蟲
精通Scrapy網路爬蟲【一】第一個爬蟲專案
2021-06-19
爬蟲
學Python爬蟲哪個機構好一點?
2019-12-10
Python爬蟲
使用python的scrapy來編寫一個爬蟲
2019-03-14
Python爬蟲
用Python寫一個簡單的微博爬蟲
2016-03-03
Python爬蟲
不會Python爬蟲？教你一個通用爬蟲思路輕鬆爬取網頁資料
2019-01-08
Python爬蟲網頁
一個小專案（爬蟲）的誕生全過程
2016-06-13
爬蟲
Python爬蟲深造篇(四)——Scrapy爬蟲框架啟動一個真正的專案
2021-11-08
Python爬蟲框架
32個Python爬蟲專案demo
2018-08-26
Python爬蟲

一個Python小白5個小時爬蟲經歷 【續】

前言

程式碼重構

轉戰.NET CORE

執行結果

總結

相關文章

一個Python小白5個小時爬蟲經歷【續】