puppeteer爬蟲的奇妙之旅

ixlei發表於2018-11-16

原文網址 : https://juejin.im/post/5bee48ee6fb9a049cd53c606

爬蟲

@(爬蟲)[puppeteer|]

爬蟲又稱網路機器人。每天或許你都會使用搜尋引擎，爬蟲便是搜尋引擎重要的組成部分，爬取內容做索引。現如今大資料，資料分析很火，那資料哪裡來呢，可以通過網路爬蟲爬取啊。那我萌就來探討一下網路爬蟲吧。

[TOC]

爬蟲的工作原理

如圖所示，這是爬蟲的流程圖，可以看到通過一個種子URL開啟爬蟲的爬取之旅，通過下載網頁，解析網頁中內容儲存，同時解析中網頁中的URL 去除重複後加入到等待爬取的佇列。然後從佇列中取到下一個等待爬取的URL重複以上步驟，是不是很簡單呢？

廣度（BFS）還是深度（DFS）優先策略

上面也提到在爬取完一個網頁後從等待爬取的佇列中選取一個URL去爬去，那如何選擇呢？是選擇當前爬取網頁中的URL 還是繼續選取當前URL中同級URL呢？這裡的同級URL是指來自同一個網頁的URL，這就是爬取策略之分。

廣度優先策略（BFS）

廣度優先策略便是將當前某個網頁中URL先爬取完全，再去爬取從當前網頁中的URL爬取的URL，這就是BFS，如果上圖的關係圖表示網頁的關係，那麼BFS的爬取策略將會是：（A->(B,D,F,G)->(C,E));

深度優先策略（DFS）

深度優先策略爬取某個網頁，然後繼續去爬取從網頁中解析出的URL，直到爬取完。（A->B->C->D->E->F->G)

下載網頁

下載網頁看起來很簡單，就像在瀏覽器中輸入連結一樣，下載完後瀏覽器便能顯示出來。當然結果是並不是這樣的簡單。 ####模擬登入對於一些網頁來說需要登入才能看到網頁中內容，那爬蟲怎麼登入呢？其實登入的過程就是獲取訪問的憑證（cookie,token...)

let cookie = '';
let j = request.jar()
async function login() {
    if (cookie) {
        return await Promise.resolve(cookie);
    }
    return await new Promise((resolve, reject) => {
        request.post({
            url: 'url',
            form: {
                m: 'username',
                p: 'password',
            },
            jar: j
        }, function(err, res, body) {
            if (err) {
                reject(err);
                return;
            }
            cookie = j.getCookieString('url');
            resolve(cookie);
        })
    })
}
複製程式碼

這裡是個簡單的栗子，登入獲取cookie, 然後每次請求都帶上cookie.

獲取網頁內容

有的網頁內容是服務端渲染的，沒有CGI能夠獲得資料，只能從html中解析內容，但是有的網站的內容並不是簡單的便能獲取內容，像linkedin這樣的網站並不是簡單的能夠獲得網頁內容，網頁需要通過瀏覽器執行後才能獲得最終的html結構，那怎麼解決呢？前面我萌提到瀏覽器執行，那麼我萌有沒有可程式設計的瀏覽器呢？puppeteer,谷歌chrome團隊開源的無頭瀏覽器專案，利用無頭瀏覽器便能模擬使用者訪問，便能獲取最重網頁的內容，抓取內容。利用puppeteer 模擬登入

async function login(username, password) {
    const browser = await puppeteer.launch();
    page = await browser.newPage();
    await page.setViewport({
        width: 1400,
        height: 1000
    })
    await page.goto('https://maimai.cn/login');
    console.log(page.url())
    await page.focus('input[type=text]');
    await page.type(username, { delay: 100 });
    await page.focus('input[type=password]');
    await page.type(password, { delay: 100 });
    await page.$eval("input[type=submit]", el => el.click());
    await page.waitForNavigation();
    return page;
}
複製程式碼

執行login()後便能像在瀏覽器中登入後，便能像瀏覽器中登入後便能獲取html中的內容，當然也可以直接請求CGI

async function crawlData(index, data) {
                    let dataUrl = `https://maimai.cn/company/contacts?count=20&page=${index}&query=&dist=0&cid=${cinfo.cid}&company=${cinfo.encodename}&forcomp=1&searchTokens=&highlight=false&school=&me=&webcname=&webcid=&jsononly=1`;
                    await page.goto(dataUrl);
                    let res = await page.evaluate((e) => {
                        return document.body.querySelector('pre').innerHTML;
                    });
                    console.log(res)
                    res = JSON.parse(res);
                    if (res && res.result == 'ok' && res.data.contacts && res.data.contacts.length) {
                        data = data.concat(res.data.contacts.map((item) => {
                            let contact = item.contact;
                            console.log(contact.name)
                            return {
                                name: contact.name,
                                occupation: contact.line4.split('，')[0],
                                company: contact.company,
                                title: contact.position
                            }
                        }));
                        return await crawlData(++index, data);
                    }
                    return data;
                }
複製程式碼

像有的網站，拉鉤，每次爬取的cookie都一樣，也能利用無頭瀏覽器取爬取，這樣每次就不用每次爬取的時候擔心cookie.

寫在最後

當然爬蟲不僅僅這些，更多的是對網站進行分析，找到合適的爬蟲策略。對後關於puppeteer,不僅僅可以用來做爬蟲，因為可以程式設計，無頭瀏覽器，可以用來自動化測試等等。

node爬蟲-使用puppeteer
2018-04-02
爬蟲
我常用的puppeteer爬蟲api
2018-05-25
爬蟲API
Puppeteer爬蟲實戰(三)
2020-07-21
爬蟲
puppeteer介紹（一）爬蟲，效能，注入
2019-02-28
爬蟲
JB的Python之旅-爬蟲篇--requests&Scrapy
2018-06-08
Python爬蟲
nodeJS 爬蟲，通過Puppeteer實現滾動載入
2018-09-19
NodeJS爬蟲
JB的Python之旅-爬蟲篇-新浪微博內容爬取
2018-06-30
Python爬蟲
Java序列化流的奇妙之旅
2022-03-07
Java
Python 列表與字典排序的奇妙之旅
2020-12-15
Python排序
JB的Python之旅-爬蟲篇--urllib和Beautiful Soup
2018-05-15
Python爬蟲
第一彈：puppeteer爬蟲小demo —— 網易雲音樂
2018-05-27
爬蟲
使用puppeteer爬蟲，檢查頁面靜態資源丟失
2019-02-16
爬蟲
hanson影院全棧開發日誌之Puppeteer爬蟲實踐
2019-03-17
全棧爬蟲
從零開始，如何用puppeteer寫一個爬蟲指令碼
2018-08-17
爬蟲指令碼
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
puppeteer+mysql—爬蟲新方法！抓取新聞&評論so easy！
2018-09-17
MySql爬蟲
JB的Python之旅-爬蟲篇-圖形驗證碼(1)-- tesserocr
2018-06-09
Python爬蟲
《寄夢遠方》：治癒靈魂的奇妙之旅
2023-02-13
小豬的Python學習之旅 —— 9.爬蟲實戰：爬取花瓣網的小姐姐
2019-03-04
Python爬蟲
爬蟲：多程式爬蟲
2021-05-19
爬蟲
Puppeteer爬取網頁資料
2019-03-22
網頁
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
Java爬蟲與Python爬蟲的區別？
2023-10-25
Java爬蟲Python
記一次奇妙的 go-protobuf 包升級之旅
2020-04-18
Go
通用爬蟲與聚焦爬蟲
2023-04-18
爬蟲
爬蟲--Scrapy簡易爬蟲
2020-10-07
爬蟲
Python爬蟲（1.爬蟲的基本概念）
2018-04-20
Python爬蟲
Python爬蟲之路-chrome在爬蟲中的使用
2021-01-04
Python爬蟲Chrome
Python爬蟲之路-selenium在爬蟲中的使用
2021-01-04
Python爬蟲
爬蟲進階：反反爬蟲技巧
2018-06-28
爬蟲
反爬蟲之字型反爬蟲
2019-06-27
爬蟲
晶片科技：從微觀世界到現實應用的奇妙之旅
2024-03-22
晶片
實用爬蟲-01-檢測爬蟲的 IP
2018-09-08
爬蟲
爬蟲的小技巧之–如何尋找爬蟲入口
2018-03-05
爬蟲
Puppeteer 實戰-爬取動態生成的網頁
2018-11-10
網頁
vuepress爬坑之旅
2018-12-26
Vue
爬蟲
2024-11-16
爬蟲
你有自己寫過爬蟲的程式嗎？說說你對爬蟲和反爬蟲的理解？
2024-11-28
爬蟲