資料提取方法-多程式多執行緒爬蟲

zhao_04639發表於2020-11-16

原文網址 : https://blog.csdn.net/zhao_04639/article/details/109710164

執行緒爬蟲

爬取
頁面的URL是：http://www.qiushibaike.com/8hr/page/1

思路分析：

確定url地址

url地址的規律非常明顯，一共只有13頁url地址

在這裡插入圖片描述

確定資料的位置

資料都在id='content-left’的div下的div中，在這個區域，url地址對應的響應和elements相同
在這裡插入圖片描述

上述程式碼改寫成多執行緒方式實現
2.1 回顧多執行緒的方法使用
在python3中，主執行緒主程式結束，子執行緒，子程式不會結束

為了能夠讓主執行緒回收子執行緒，可以把子執行緒設定為守護執行緒,即該執行緒不重要，主執行緒結束，子執行緒結束

t1 = threading.Thread(targe=func,args=(,))
t1.setDaemon(True)
t1.start() #此時執行緒才會啟動

2.2 回顧佇列模組的使用

from queue import Queue
q = Queue(maxsize=100)
item = {}
q.put_nowait(item) #不等待直接放，佇列滿的時候會報錯
q.put(item) #放入資料，佇列滿的時候回等待
q.get_nowait() #不等待直接取，佇列空的時候會報錯
q.get() #取出資料，佇列為空的時候會等待
q.qsize() #獲取佇列中現存資料的個數 
q.join() #佇列中維持了一個計數，計數不為0時候讓主執行緒阻塞等待，佇列計數為0的時候才會繼續往後執行
q.task_done() 
# put的時候計數+1，get不會-1，get需要和task_done 一起使用才會-1

2.3 多執行緒實現思路剖析
把爬蟲中的每個步驟封裝成函式，分別用執行緒去執行
不同的函式通過佇列相互通訊，函式間解耦
在這裡插入圖片描述

將上述程式碼改寫成多程式方式實現
3.1 回顧多程式程的方法使用

from multiprocessing import Process
t1 = Process(targe=func,args=(,))
t1.daemon = True  #設定為守護程式
t1.start() #此時執行緒才會啟動

3.2 多程式中佇列的使用
多程式中使用普通的佇列模組會發生阻塞，對應的需要使用multiprocessing提供的JoinableQueue模組，其使用過程和線上程中使用的queue方法相同

重點
能夠通過多執行緒多程式實現爬蟲
掌握queue中put和get以及task_done和join方法的使用

python爬蟲入門八：多程式/多執行緒
2019-01-07
Python爬蟲執行緒
python爬蟲之多執行緒、多程式+程式碼示例
2020-08-26
Python爬蟲執行緒
python多執行緒爬蟲與單執行緒爬蟲效率效率對比
2021-03-19
Python執行緒爬蟲
簡易多執行緒爬蟲框架
2018-06-02
執行緒爬蟲框架
多執行緒爬蟲實現（上）
2018-05-26
執行緒爬蟲
Python《多執行緒併發爬蟲》
2020-12-12
Python執行緒爬蟲
Python爬蟲入門【9】：圖蟲網多執行緒爬取
2019-07-31
Python爬蟲執行緒
多執行緒，多程式
2018-07-01
執行緒
爬蟲：多程式爬蟲
2021-05-19
爬蟲
Python 多執行緒多程式
2021-03-26
Python執行緒
Python爬蟲入門【10】：電子書多執行緒爬取
2019-07-31
Python爬蟲執行緒
如何使用queue模組實現多執行緒爬蟲
2023-11-29
執行緒爬蟲
執行緒以及多執行緒，多程式的選擇
2019-04-02
執行緒
如何使用python多執行緒有效爬取大量資料？
2021-09-11
Python執行緒
python多執行緒非同步爬蟲-Python非同步爬蟲試驗[Celery,gevent,requests]
2020-11-11
Python執行緒非同步爬蟲
Python——程式、執行緒、協程、多程式、多執行緒（個人向）
2020-10-22
Python執行緒
多執行緒(五)---執行緒的Yield方法
2020-10-31
執行緒
多執行緒和多執行緒同步
2024-08-22
執行緒
pytest(13)-多執行緒、多程式執行用例
2022-02-23
執行緒
Android中的多程式、多執行緒
2020-05-28
Android執行緒
入門python多執行緒/多程式
2020-11-03
Python執行緒
Python的多程式和多執行緒
2021-03-28
Python執行緒
基於多執行緒+協程的非同步增量式爬蟲
2024-05-12
執行緒非同步爬蟲
如何爬取 python 進行多執行緒跑資料的內容
2023-11-09
Python執行緒
springboot配置執行緒池使用多執行緒插入資料
2019-01-19
Spring Boot執行緒
pytest多程式/多執行緒執行測試用例
2022-07-04
執行緒
多執行緒掃描資料夾耗時方法分析
2020-09-11
執行緒
多執行緒------執行緒與程式/執行緒排程/建立執行緒
2020-12-31
執行緒
[譯] Python 的多執行緒與多程式
2018-08-28
Python執行緒
python 多程式和多執行緒學習
2019-12-18
Python執行緒
python多程式取代多執行緒的探究
2021-09-11
Python執行緒
Python 多執行緒及程式
2018-09-04
Python執行緒
多執行緒系列（1），多執行緒基礎
2020-08-20
執行緒
多執行緒--執行緒管理
2018-07-31
執行緒
執行緒與多執行緒
2024-08-11
執行緒
多執行緒【執行緒池】
2021-02-20
執行緒
多執行緒爬取B站視訊
2020-10-13
執行緒
a、多執行緒
2024-03-14
執行緒

資料提取方法-多程式多執行緒爬蟲

相關文章