【實戰】使用asyncio爬取gitbook內容輸出pdf

liaochangjiang發表於2019-03-18

原文網址 : https://juejin.im/post/5c8fc859f265da60e9267597

文末附有github原始碼連結~

梳理一下流程

用到HTML+css轉pdf是 weasyprint.readthedocs.io/en/stable/i…

def output_pdf(html_text,css_text):
	html = weasyprint.HTML(string=html_text)
	css = weasyprint.CSS(string=css_text)
	html.write_pdf(fname, stylesheets=[css])
複製程式碼

所以我們需要做的，就是獲取css檔案和html原始碼，然後傳入output_pdf這個函式就行了。

獲取css

css很簡單，因為不同的gitbook page使用到的css檔案都是一樣的，可以複製下來儲存到本地的檔案，之後從檔案中讀取就行。

具體內容見：github.com/fuergaosi23…

獲取html

需要的html是其中的正文部分，通過頁面原始碼分析可知，這部分是被<section class='normal markdown-section'></section>包裹住的，這可以很容易得使用bs4或者lxml等工具提取出來。

知道了怎麼獲取一個頁面的內容，接下來要做的就是獲取所有章節頁面的連結，這部分內容就在左邊的側邊欄。

由頁面原始碼分析，可知這些章節都是一個帶有header或chapter的li標籤，這也可以通過簡易的指令碼抓取。

獲取了所有章節連結之後，就可以爬取各個頁面得正文內容了，然後組裝起來。

輸出pdf

這部分很簡單，上面提到過，就不贅述了。

開始動手

首先是一個提取單頁面正文的函式：

def get_content(index,path):
    '''
    return path's html 
    '''
    url = urljoin(BASE_URL, path)
    content = requests.get(url,headers=headers).text
    tree = etree.HTML(content)
    context = tree.xpath('//section[@class="normal markdown-section"]')[0]
    context.remove(context.find('footer'))
    text = etree.tostring(context).decode()
    return text
複製程式碼

獲取章節連結的函式：

def collect_toc(self, start_utocrl):
    text = requests.get(start_url, headers=self.headers).text
    soup = BeautifulSoup(text, 'html.parser')
    lis = ET.HTML(text).xpath("//ul[@class='summary']//li")
    for li in lis:
        element_class = li.attrib.get('class')
    
        if not element_class:
            continue
        if 'header' in element_class:
            title = self.titleparse(li)
            data_level = li.attrib.get('data-level')
            level = len(data_level.split('.')) if data_level else 1
            content_urls.append({
                'url': "",
                'level': level,
                'title': title
            })
        elif "chapter" in element_class:
            data_level = li.attrib.get('data-level')
            level = len(data_level.split('.'))
            if 'data-path' in li.attrib:
                data_path = li.attrib.get('data-path')
                url = urljoin(self.start_url, data_path)
                title = self.titleparse(li)
                if url not in found_urls:
                    content_urls.append(
                        {
                            'url': url,
                            'level': level,
                            'title': title
                        }
                    )
                    found_urls.append(url)
    
            # Unclickable link
            else:
                title = self.titleparse(li)
                content_urls.append({
                    'url': "",
                    'level': level,
                    'title': title
                })

複製程式碼

一個gitbook page的章節可能會很多，如果是通過迴圈一個一個爬的話，那效率太低了，這裡我們使用python3.6的新feature asyncio來進行非同步抓取。

示例程式碼如下：

這裡還要注意一點，requests本身是block的，要使用asyncio，還需要對對這部分進行一下處理。這裡用的是aiohttp。

async def request(url, headers, timeout=None):
    async with aiohttp.ClientSession() as session:
        async with session.get(url, headers=headers, timeout=timeout) as resp:
            return await resp.text()
複製程式碼

主函式：

async def main():
    text_tree, content_urls = collect_toc()
    tasks = []
    for index, url in enumerate(content_urls):
        tasks.append(
            get_content(index, url)
        )
    await asyncio.gather(*tasks)
    print("crawl : all done!")

if __name__ == '__main__':
    loop = asyncio.get_event_loop()
    loop.run_until_complete(main())
    loop.close()
複製程式碼

其他一些細節

Weasyprint預設是將h1-h6標籤和目錄錨點進行對應的，這個和我們的需求不符。

我們想要的目錄結構是要和gitbook page左邊目錄欄一致。在研究了一陣原始碼之後，我們用monkey patch（猴子補丁的方式）將這部分內容改了一下。

def local_ua_stylesheets(self):
    return [weasyprint.CSS('./html5_ua.css')]
weasyprint.HTML._ua_stylesheets = local_ua_stylesheets
複製程式碼

這個html5_ua.css的內容在文末給出的github地址裡面有。

如何讓爬到的內容有序？

這個專案和普通的爬蟲有點不一樣的地方，那就是最終生成的html是要和章節內容順序一致的。如果是通過一個for迴圈的話，這個很容易解決。用到asyncio的話，就要相對複雜很多。這裡我們的解決方案是先獲取所有的url列表，然後生成一個一樣長度的全域性變數CONTENT_LIST列表

for index, url in enumerate(content_urls):
        tasks.append(
            get_content(index, url)
        )
複製程式碼

通過enumerate函式，我們遍歷的同時獲取這個url對應的索引，將這個索引資訊傳入到get_content函式，這個函式不再返回值，而是把資料寫入到全域性變數CONTENT_LIST相應的index位置上去。

調整程式碼結構

全域性變數的處理是不太好的，一個每次只執行一次的指令碼倒是問題不大，如果要做為一個module給其他程式呼叫的話，這個全域性變數會程式碼很多問題。所以我們抽象成了一個類，改成在__init__裡面初始化這個列表。

github專案地址

想直接取工具的小夥伴點這裡：github.com/fuergaosi23…

使用IText7和miniExcel處理pdf並輸出內容
2024-08-07
Excel
[實戰演練]python3使用requests模組爬取頁面內容
2021-09-09
Python
Python 爬蟲進階篇-利用beautifulsoup庫爬取網頁文章內容實戰演示
2020-09-14
Python爬蟲網頁
Java讀取本地檔案內容並輸出
2020-09-25
Java
表格輸出內容
2018-11-13
Spring Boot Filter中擷取響應輸出內容
2024-04-14
Spring BootFilter
[譯] 如何使用 Python 和 BeautifulSoup 爬取網站內容
2019-02-23
Python網站
Python爬取鏈家成都二手房源資訊 asyncio + aiohttp 非同步爬蟲實戰
2020-09-22
PythonAIHTTP非同步爬蟲
ccat – 使用語法突出顯示輸出內容
2021-11-23
使用Node.js爬取任意網頁資源並輸出高質量PDF檔案到本地~
2019-06-14
Node.js網頁
廣招內容輸出英雄帖
2024-03-09
爬取Elastic Stack採集的Nginx內容
2023-11-07
ASTNginx
Python的configparser模組讀取.ini檔案內容並輸出
2022-10-21
Python
爬蟲實戰（一）：爬取微博使用者資訊
2018-07-15
爬蟲
PHP執行耗時指令碼實時輸出內容
2019-02-16
PHP指令碼
JB的Python之旅-爬蟲篇-新浪微博內容爬取
2018-06-30
Python爬蟲
Python爬蟲爬取B站up主所有動態內容
2024-05-08
Python爬蟲
python 爬蟲如何爬取動態生成的網頁內容
2024-10-31
Python爬蟲網頁
Python asyncio 爬蟲
2020-04-28
Python爬蟲
簡單的爬蟲：爬取網站內容正文與圖片
2021-09-09
爬蟲網站
使用 Docker 封裝 Python 小工具生成 GitBook PDF
2019-05-07
Docker封裝PythonGit
SEO如何提高原創內容輸出增量？
2020-05-25
java 爬取網頁內容。標題、圖片等
2021-09-24
Java網頁
Python爬蟲開發與專案實戰pdf
2020-01-11
Python爬蟲
ScienceDirect內容爬蟲
2021-07-21
爬蟲
爬蟲實戰——58同城租房資料爬取
2019-12-04
爬蟲
ORM 下如何實現同類別下同數量內容輸出？
2018-08-09
ORM
python爬取中文輸出亂碼怎麼辦
2021-09-11
Python
python爬蟲：使用BeautifulSoup修改網頁內容
2020-04-05
Python爬蟲網頁
pdf檔案內容怎麼修改 pdf怎麼免費編輯修改內容
2022-03-26
Python-使用openpyxl讀取excel內容
2024-03-12
PythonExcel
Python爬蟲實戰詳解：爬取圖片之家
2020-11-04
Python爬蟲
python3網路爬蟲開發實戰pdf
2021-11-30
Python爬蟲
【Python爬蟲實戰】使用Selenium爬取QQ音樂歌曲及評論資訊
2021-03-24
Python爬蟲
Python 爬取網頁中JavaScript動態新增的內容（一）
2018-09-28
Python網頁JavaScript
Python 爬取網頁中JavaScript動態新增的內容（二）
2018-09-28
Python網頁JavaScript
MongoDB查詢如何只輸出部分欄位內容
2018-04-20
MongoDB
易優CMS每隔N行輸出內容判斷
2024-07-13