爬百度文庫有償資料順便學習mongoose

YDJFE發表於2018-03-27

原文網址 : https://juejin.im/post/5aba572a6fb9a028cd451f11

寫本文大致分為以下幾個心理活動。

本想做做爬蟲，然後持久化到mongodDb。後來，有需求要下載百度文庫的資料，又沒有下載券，於是想想怎樣能夠免費下載資料，順便儲存下來。所以就有了獲取百度文庫的資料而順便學習mongoose。

按心理活動排序本文敘述分為以下幾點。

mongoDb安裝

1.安裝

sudo brew install mongodb
複製程式碼

2. 建立一個資料庫儲存目錄 /data/db：

sudo mkdir -p /data/db
複製程式碼

3.啟動Mongodb

sudo mongod
複製程式碼

4.新開視窗，進入mongodb命令列模式

mongo
複製程式碼

連線mongodb

cd ~ && cnpm i mongodb
複製程式碼

新建一個連線檔案connect.js

var MongoClient = require('mongodb').MongoClient;
// 連線資料庫
var url_test = 'mongodb://localhost:27017/test'; //資料庫test本不存在，連線時會自動建立

var insertData = function(db){
  // 往test資料庫裡新建一個site集合，並插入一條資料
  db.collection('site').insertOne({name: 'guojc', age: 99, hobby: 'movie'}, function(err, result){
    console.log('inserted successly');
    console.log(result);
    db.close();
    console.log('close');
  });
}

MongoClient.connect(url_test, function(err, db) {
  console.log('Connected successly to server.');
  insertData(db);
});
複製程式碼

node connect.js,發現連線成功，但是插入資料包錯 ==db.collection is not a function==
解決方法
我改成這樣

var MongoClient = require('mongodb').MongoClient;
// 連線資料庫
var url = 'mongodb://localhost:27017';

var insertData = function(client){
  // 往test資料庫裡新建一個site集合，並插入一條資料
  client.db('test').collection('site').insertOne({name: 'guojc', age: 99, hobby: 'movie'}, function(err, result){
    console.log('inserted successly');
    console.log(result);
    client.close();
    console.log('close');
  });
}

MongoClient.connect(url, function(err, client) {
  console.log('Connected successly to server.');
  insertData(client);
});
複製程式碼

show dbs 能夠看到建立的資料庫
use test 選擇建立愛的資料庫
show tables 顯示錶
db.site.find() 查詢該表所有資料

Mongoose簡介

Mongoose是在node.js非同步環境下對mongodb進行便捷操作的物件模型工具。本文將詳細介紹如何使用Mongoose來操作MongoDB。

Mongoose是NodeJS的驅動，不能作為其他語言的驅動。Mongoose有兩個特點

1. 通過關係型資料庫的思想來設計非關係型資料庫
1. 基於mongodb驅動，簡化操作

Mongooose三個重要概念：

Schema： 相當於一個資料庫的模板，Schema不具備運算元據庫的能力。

Model： 由Schema編譯而成的構造器，具有抽象屬性和行為，可以對資料庫進行增刪查改。

Entity： 真實的資料。

Schema 生成 Model ，Model 創造 Document，Model和Document都可對資料庫操作造成影響。

簡單demo

const mongoose = require('mongoose');


mongoose.connect('mongodb://localhost:27017/test');
const con = mongoose.connection;
con.on('error', console.error.bind(console, '連線資料庫失敗'));
con.once('open',()=>{
    //定義一個schema
    let Schema = mongoose.Schema({
        name:String,
        age:Number
    });
    // 自定義方法
    Schema.methods.getAge = function(){
        console.log("I am "+this.age + "years old");
    }
    //繼承一個schema
    let Model = mongoose.model("student",Schema);
    //生成一個document
    let student = new Model({
        name:'hanmeimei',
        age:16
    });
    //存放資料
    student.save((err,res)=>{
        if(err) return console.log(err);
        res.getAge();
        //查詢資料
        Model.find({name:'hanmeimei'},(err,data)=>{
            console.log(data);
        })
    });
})
複製程式碼

輸出

I am 16years old
[ { _id: 5ab1cad40b0132e9a9e6c65b,
    name: 'hanmeimei',
    age: 16,
    __v: 0 } ]
複製程式碼

檢視資料庫，發現多了一個students的table，Mongoose會將集合名稱設定為模型名稱的小寫版。如果名稱的最後一個字元是字母，則會變成複數；如果名稱的最後一個字元是數字，則不變；如果模型名稱為"MyModel"，則集合名稱為"mymodels"；如果模型名稱為"Model1"，則集合名稱為"model1"

參考：

mongoose基礎入門

深入淺出mongoose

儲存百度文庫資料為圖片

需求：要獲取百度文庫資料，下面拿這份三年級上冊數學期末試卷及答案作為例子。

（PS） 前提是百度文庫能看到內容，只是下載需要下載券。

一看到這個需求第一反應就是

用爬蟲
開啟百度文
然後爬取需要的資料儲存到本地

然而開啟文庫看了看裡面的內容是多張圖片來的, 而且有 載入更多按鈕 emmmm...

那就用 puppeteer吧，之前也用過，於是思路分為以下幾點

開啟連結
點選全屏檢視（感覺省了一堆功夫）
點選載入更多
去掉頁面上的多餘的dom節點
儲存為pdf/圖片

直接上程式碼

1. 開啟連結

await page.goto(url);
複製程式碼

2. 點選全屏

page.click('a[data-toolsbar-log=fullscreen]')
複製程式碼

3. 點選載入更多

page.click('.moreBtn')
複製程式碼

4. 去掉頁面上的多餘的dom節點

await page.evaluate(v => {
    // dom操作
})
複製程式碼

5. 儲存為pdf

 page.pdf({path: 'page.pdf'});
 or 
 page.screenshot({
   path: '1.png',
   fullPage:true
 });
複製程式碼

問題來了

儲存為pdf時圖片變空白
改成儲存為圖片，部分圖片空白

發現滾動操作的時候會重新請求圖片資源，所以dom節點上面只會存在部分圖片。

看了看每張圖片的外層都有一個pageNo-x的ID，

根據這個為切入點的話，就改良了上面步驟。

為

開啟連結（同上）
儲存已經載入的圖片
點選載入更多
儲存載入的並且id值不等於之前幾個的圖片
下拉
儲存剩餘的圖片
將最後合成的圖片儲存為圖片（資料只需要列印出來，所以儲存為圖片也可以）
優化（去掉圖片背景的廣告）

部分程式碼

// 找圖片,並用一個新節點存起來
async function collectPng(index) {
  const res = await page.evaluate(v => {
      const div = document.getElementById('collection') || document.createElement('div')
      div.id = 'collection'
      document.getElementsByTagName('body')[0].appendChild(div)
      const item = document.getElementById('pageNo-'+v)
      const rpi = item?item.getElementsByClassName('reader-pic-item')[0]: null
      rpi&&(rpi.style.position = 'relative')
      rpi&&div.appendChild(rpi)
      return {index:v, exist:!!rpi}
  },index)
  return res
}
// 根據返回值，判斷是否繼續查詢還是下拉頁面
async function collecting(index) {
  const res = await collectPng(index)
  if(res.exist) {
    index+=1
    await collecting(index)
  } else {
    if(!hasLoadMore){
      console.log('載入更多')
      hasLoadMore = true
      await loadMore()
      await collecting(index)
    } else if(index<9){
      console.log('下拉')
      await pressDown()
      await collecting(index)      
    } else {

    }
  }
}
// 生成純圖片組合成的dom
async function createDom(){
  await page.evaluate(v => {
    const div = document.getElementById('collection');
    const body = document.createElement('body');
    body.appendChild(div)
    document.getElementsByTagName('body')[0].remove()
    document.getElementsByTagName('html')[0].appendChild(body)
  })
}
//pressDown
async function pressDown() {
  await page.keyboard.press('ArrowDown',{delay: 2500});
  await timeout(1000);  
}
複製程式碼

實際執行情況

開始，儲存前三張圖片
發現沒有了，載入更多
發現沒有了，下拉
知道真的沒有了就儲存圖片

最後優化圖片背景

由於圖片背景會有這些教育機構，為了列印出來更加清晰，可以嘗試去掉背景

自己的思路是

將儲存的圖片用canvas畫出來，然後對比畫素點rgb的值均大於100的話就變成白色，再儲存成圖片。
當然，你可以用PS摳：）

程式碼

結語

如果你能看到這裡，謝謝。文章、程式碼寫的較為之粗糙，只是將自己的想法用程式碼實現，本文初衷是爬蟲並持久化到mongoDb的，後來感覺偏離了路線。後面會在這個基礎上加上這方面功能。至於這個獲取百度文庫資源的，只是針對這篇三年級上冊數學期末試卷及答案，還沒做其他靈活處理，以後會考慮更多實際情況。

我開了一門爬蟲資料分析課，順便爆了個照
2019-03-26
爬蟲
Mongoose初步學習
2018-04-13
Go
Node.js學習之路23——Node.js利用mongoose連線mongodb資料庫
2019-02-16
Node.jsMongoDB資料庫
同花順資料爬取
2024-06-27
Python資料分析常用庫有哪些?Python學習！
2021-02-21
Python
scrapy爬蟲框架呼叫百度地圖api資料存入資料庫
2021-04-30
爬蟲框架地圖API資料庫
Python常用資料分析庫有哪些?Python學習班!
2021-05-08
Python
學習MongoDB資料庫
2020-12-10
MongoDB資料庫
個人收集的學習資料大放送，順便詢問咋個在小程式上賣果果
2022-04-15
Sql Server 資料庫學習-常用資料庫物件
2021-09-09
SQLServer資料庫物件
binlog有哪些工作模式？linux學習資料庫入門
2021-01-12
模式Linux資料庫
Node學習筆記 Mongodb 和 Mongoose
2020-11-30
筆記MongoDB
資料庫學習筆記
2018-10-18
資料庫筆記
Flask學習之旅--資料庫
2019-06-26
Flask資料庫
達夢資料庫學習
2020-12-30
資料庫
【資料庫學習】資料庫平臺：mysql，sql server
2019-01-09
資料庫MySqlServer
PostgreSQL 資料庫學習 - 0. 資料庫安裝
2022-01-12
SQL資料庫
【Node.js】使用mongoose連線資料庫以及進行資料儲存
2020-10-26
Node.jsGo資料庫
SQL語言有哪些分類？linux資料庫學習班
2021-04-14
SQLLinux資料庫
python學習值爬取百度翻譯
2020-10-26
Python
Python3爬蟲資料入資料庫---把爬取到的資料存到資料庫，帶資料庫去重功能
2018-10-22
Python爬蟲資料庫
Python資料爬蟲學習筆記（11）爬取千圖網圖片資料
2018-09-18
Python爬蟲筆記
資料庫學習（二）資料操作語言：
2019-01-22
資料庫
資料庫學習與複習筆記--資料庫概念和不同類資料庫CRUD操作(1)
2020-09-25
資料庫筆記
【機器學習】資料準備--python爬蟲
2022-06-22
機器學習Python爬蟲
SQLSERVER學習1——資料庫概念
2018-08-14
SQLServer資料庫
學習資料庫索引機制
2018-08-29
資料庫索引
資料庫學習線路圖
2018-09-17
資料庫
程式猿資料庫學習指南
2018-06-08
資料庫
1029學習筆記資料庫
2020-11-03
筆記資料庫
SQL 資料庫學習 Part 2
2024-06-18
SQL資料庫
python學習筆記：資料庫
2018-04-19
Python筆記資料庫
達夢資料庫學習心得
2022-06-09
資料庫
MySQL資料庫學習筆記
2020-12-10
MySql資料庫筆記
Python學習手冊（入門&爬蟲&資料分析&機器學習&深度學習）
2021-12-20
Python爬蟲機器學習深度學習
MySQL資料庫有哪些優勢特點？Linux學習有用嗎
2021-05-17
MySql資料庫Linux
百度文心（ERNIE）如何學習海量資料中的知識
2020-10-23
重新學習MySQL資料庫開篇：資料庫的前世今生
2019-08-24
MySql資料庫