爬蟲：多程式爬蟲

thoustree發表於2021-05-19

原文網址 : https://www.cnblogs.com/ydkh/p/14787884.html

　　本文測試程式碼要利用到上一篇文章爬取到的資料，上一章連結：爬蟲：獲取動態載入資料（selenium）（某站），本文要爬取的內容是某乎提問上面的話題關鍵字

1. 多程式語法

1.1 語法1

import multiprocessing
import time


def func(x):
    print(x*x)


if __name__ == '__main__':
    start = time.time()
    jobs = []
    for i in range(5):
        p = multiprocessing.Process(target=func, args=(i, ))
        jobs.append(p)
        p.start()
    end = time.time()
    print(end - start)

截圖如下：先列印時間不知怎麼解釋？求大佬指點

1.2 語法2

from multiprocessing import Pool
import time


def func(x, y):
    print(x+y)


if __name__ == '__main__':
    pool = Pool(5)
    start = time.time()
    for i in range(100):
        pool.apply_async(func=func, args=(i, 3))
    pool.close()
    pool.join()
    end = time.time()
    print(end - start)

2. 實踐測試程式碼

import requests
from bs4 import BeautifulSoup
import time
from requests.exceptions import RequestException
from pymongo import MongoClient
from multiprocessing import Pool
client = MongoClient('localhost')
db = client['test_db']


def get_page_keyword(url, word):
    headers = {
        'cookie': '',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'
    }  # 替換為自己的cookie

    try:
        html = requests.get(url, headers=headers, timeout=5)
        html = BeautifulSoup(html.text, "html.parser")
        key_words = html.find("div", {'class': 'QuestionPage'}).find("meta", {'itemprop': 'keywords'}).attrs['content']
        print(key_words)
        with open(r'女性話題連結.txt', 'a') as file:
            file.write(key_words + '\n')
            db[u'' + word + 'keyword'].insert_one({"link": url, "key_words": key_words, "time": time.ctime()})
    except RequestException:
        print('請求失敗')


if __name__ == '__main__':
    input_word = input('輸入連結檔案所屬話題(比如:女性)：')
    f = open(r'女性2021-5-16-3-8.txt')  # 自己爬取到連結的檔案位置
    lines = []
    for i in f.readlines():
        lines.append(i.strip())   # 因為上次爬取連結結尾加了行結束符 EOF
    f.close()
    # 多程式測試
    pool = Pool(2)  # 數字大會快點，但筆者電腦兩核，而且數字太大網站一會就說你賬號異常
    start = time.time()
    for link in lines:
        pool.apply_async(func=get_page_keyword, args=(link, input_word))
    pool.close()
    pool.join()
    end = time.time()
    print(end - start)

截圖：不打算重新跑了，是以前的截圖

【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
Swift爬蟲程式
2023-11-13
Swift爬蟲
通用爬蟲與聚焦爬蟲
2023-04-18
爬蟲
爬蟲--Scrapy簡易爬蟲
2020-10-07
爬蟲
【PhpSelenium】3.定時爬蟲 + 多工爬蟲 + 代理池
2019-12-17
PHP爬蟲
[PhpSelenium] 3.定時爬蟲 + 多工爬蟲 + 代理池
2019-12-17
PHP爬蟲
爬蟲進階：反反爬蟲技巧
2018-06-28
爬蟲
反爬蟲之字型反爬蟲
2019-06-27
爬蟲
爬蟲爬取微信小程式
2019-02-16
爬蟲微信小程式
Python使用多程式提高網路爬蟲的爬取速度
2019-02-01
Python爬蟲
爬蟲
2024-11-16
爬蟲
【爬蟲】爬蟲專案推薦 / 思路
2020-04-21
爬蟲
網路爬蟲——爬蟲實戰（一）
2022-01-29
爬蟲
Python爬蟲入門【9】：圖蟲網多執行緒爬取
2019-07-31
Python爬蟲執行緒
爬蟲程式最佳化要點—附Python爬蟲影片教程
2020-10-15
爬蟲Python
你有自己寫過爬蟲的程式嗎？說說你對爬蟲和反爬蟲的理解？
2024-11-28
爬蟲
2個月精通Python爬蟲——3大爬蟲框架+6場實戰+反爬蟲技巧+分散式爬蟲
2018-06-28
Python爬蟲框架分散式
Python爬蟲教程-01-爬蟲介紹
2018-09-06
Python爬蟲
Java爬蟲與Python爬蟲的區別？
2023-10-25
Java爬蟲Python
python就是爬蟲嗎-python就是爬蟲嗎
2020-10-29
Python爬蟲
爬蟲與反爬蟲技術簡介
2022-09-20
爬蟲
簡單的爬蟲程式
2024-03-24
爬蟲
request爬蟲
2019-02-16
爬蟲
nodejs 爬蟲
2019-02-16
NodeJS爬蟲
科普：爬蟲
2018-06-29
爬蟲
python 爬蟲
2024-04-20
Python爬蟲
app爬蟲
2024-05-04
APP爬蟲
爬蟲案例
2024-03-31
爬蟲
爬蟲概述
2024-05-02
爬蟲
爬蟲包
2019-12-10
python爬蟲
2024-06-13
Python爬蟲
python爬蟲入門八：多程式/多執行緒
2019-01-07
Python爬蟲執行緒
資料提取方法-多程式多執行緒爬蟲
2020-11-16
執行緒爬蟲
【爬蟲】python爬蟲從入門到放棄
2018-12-20
爬蟲Python
分散式爬蟲原理之分散式爬蟲原理
2018-05-25
分散式爬蟲
C#爬蟲與反爬蟲--字型加密篇
2019-06-26
C#爬蟲加密
【python--爬蟲】彼岸圖網高清桌布爬蟲
2019-07-21
Python爬蟲

爬蟲：多程式爬蟲

1. 多程式語法

1.1 語法1

1.2 語法2

2. 實踐測試程式碼

相關文章