小輝-top採集.txt

weixin_33866037發表於2018-09-13

原文網址 : https://blog.csdn.net/weixin_33866037/article/details/87047325

# -*- coding:utf-8 -*-

import requests,threading,random,string

from lxmlimport etree

from queueimport Queue

from timeimport sleep

from threadingimport Thread

# 儲存檔案的函式

def savefile(savepath,content):

fp= open(savepath,'a+',encoding='utf8',newline="",errors='ignore')

fp.write(content+"\n")

fp.close()

#生成隨機3-6位字首

def GetPassword():

# digits生成所有數字 ascii_letters生成所有字母

slcNum=[random.choice(string.digits+string.ascii_lowercase)for iin range(random.randint(3,6))]

random.shuffle(slcNum)# 將序列的所有元素隨機排序

getPwd=''.join([ifor iin slcNum])

return getPwd

lock= threading.RLock()# 多個執行緒訪問共享資料

def getHTMLText(urlqueue):

global lock

while urlqueue.qsize()> 0:

if lock.acquire(): # 給可能出現資料訪問衝突的程式碼塊上鎖

urls_line= urlqueue.get()# 獲取要爬取的url地址

for iin range(1,101):

print(" <%s> 域名第 <%s> 次採集 " % (urls_line, i))

url_line= GetPassword()

url= "http://" + url_line+ '.' + urls_line+ "/"

# print(url)

while True:

try:

headers= {

'User-Agent': 'Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)'

}

r= requests.get(url=url,headers=headers,verify=True,timeout=5)# 證書驗證設為FALSE

r.raise_for_status()#不是200，丟擲異常requests.HTTPError

r.encoding= r.apparent_encoding

print("採集網頁的狀態碼：%s" %r.status_code)

print("採集網頁的URL：%s" %r.url)

html_title= "".join(etree.HTML(r.text).xpath('//title/text()'))

print("採集網頁的標題：%s" %html_title)

title_path= './save_title.txt'

savefile(title_path, html_title)

print("爬取完成:對%s目標地址採集完成" % url)

print("*"*70)

if r.status_code== 200:

break

except Exception as ex:

print(Exception,":", ex)

sleep(1)

if __name__== '__main__':

url_queue= Queue()

seen_queue= set()

filepath= "./小輝-top採集.txt"

txtfile= [line.strip()for linein open(filepath,encoding="GB2312").readlines()]

for linein txtfile:

if line:

line= line.strip()

url_queue.put(line)

seen_queue.add(line)# set集合新增內容

#print(url_queue.qsize())

threads= []# 宣告一個變數，儲存多個執行緒

#threads_num = 50 # 宣告一個變數，控制啟動多少個執行緒

threads_num= int(input("請輸入執行緒數："))

for ctin range(0,threads_num): # 建立執行緒物件，並啟動執行緒

current_thread= threading.Thread(target=getHTMLText,args=(url_queue,))# 建立執行緒物件

current_thread.setDaemon(True)# 設定守護程式

threads.append(current_thread)# 將執行緒儲存在列表中

current_thread.start()

for tin threads: # 讓所有的執行緒join，就是讓主執行緒等待所有子執行緒執行結束再推出

t.join()

print("程式執行結束....")

vs聯合halcon——採集影像（實時採集與單次採集）
2021-06-27
抖音商家資訊採集器，抖音小店採集電話採集
2023-04-17
地圖資料採集，包括百度地圖採集，高德地圖採集，360地圖採集
2024-04-28
地圖
狂雨小說採集規則（書趣閣3000頁）
2020-04-14
tp5仿阿里小說站，後臺自動採集小說
2019-01-25
阿里
API採集介面原始碼電商採集工具介面
2023-04-06
API原始碼
微信桌布小程式原始碼自動採集小米桌布
2021-09-19
原始碼
覺醒向量入選2019年度 AI資料綜合採集 TOP 10
2020-07-28
AI
能夠採集小紅書圖片、視訊的軟體，一鍵自動批量採集到電腦上
2021-11-26
自媒體素材採集平臺，採集影片文章素材
2020-07-10
【GUI軟體開發】小紅書評論採集：自動採集1w多條，含二級評論！
2024-03-23
GUI
PHP小說網站原始碼wap+pc自動採集
2020-07-16
PHP網站原始碼
1688阿里巴巴賣家電話採集軟體阿里巴巴國際站採集京東採集
2022-05-31
阿里
Kubernetes日誌採集
2019-04-03
Flume採集到HDFS
2018-08-09
招聘資訊採集
2023-11-10
.NET 音訊採集
2024-08-24
音訊
日誌採集/分析
2024-06-30
自媒體素材採集平臺，素材採集方法都有這些
2021-03-12
研究生手冊小箋 - 彭明輝教授
2020-08-05
前端埋點資料採集（一）採集系統架構設計
2024-05-06
前端架構
【京東】商品list列表採集+類目下的商品列表資料採集
2023-04-23
大眾點評點餐小程式開發經驗 – 資料採集
2019-03-01
互站網48元買的小說程式原始碼自動採集
2020-06-05
原始碼
豬酒店房價採集
2023-11-13
採集Prestashop獨立站
2023-11-10
REST
日誌採集框架Flume
2020-10-06
框架
.NET 攝像頭採集
2024-08-29
[20180417]vim小技巧.txt
2018-04-17
程式採集裝置資料，不穩定，突然不採集，程式崩潰
2024-06-26
輕鬆採集又拍相簿裡的大量圖片，自動批量採集
2021-11-12
資料採集知識分享|4大資料採集方式都有什麼？
2022-05-20
大資料
淘寶商家電話採集，淘寶天貓商家號碼採集軟體
2023-09-26
優惠券採集資訊
2023-11-14
amazon產品採集資料
2023-11-10
phpQuery採集網站資料
2020-07-02
PHP網站
網址無限採集器
2020-10-11
Halcon採集影像Image Acquisition解析
2020-07-08
UI

小輝-top採集.txt

相關文章