python爬蟲利用requests製作代理池s
網友分享的編碼
爬取代理然後驗證代理,將可用代理放入txt檔案。
import requests
from scrapy import Selector
start_url = '
url = '{}.html'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'}
class MyProxy(object):
def GetPage(self,url):#頁面原始碼獲取
response = requests.get(url=url,headers=headers)
text = response.text
return text
def GetInfo(self,text):#頁面資訊獲取
selector = Selector(text=text)
FindTable = selector.xpath('//div[@class="layui-form"]/table/tbody/tr')
for proxy in FindTable:
ip = "".join(proxy.xpath('.//td[1]/text()').get()).replace('\t','').replace('\n','')
port = "".join(proxy.xpath('.//td[2]/text()').get()).replace('\t','').replace('\n','')
print(ip,port)
self.TestIP(ip,port)
def TabPage(self,text):#切換頁面
selector = Selector(text=text)
page = selector.xpath('//*[@id="layui-laypage-1"]/a[8]/@data-page').get()
self.new_url = url.format(page)
def TestIP(self,ip,port):
try:
response = requests.get(url='{"http":"{}:{}".format(ip,port)})
print(response.status_code)
if response.status_code<200 or response.status_code>200:
print("訪問失敗")
else: 鄭州人流醫院哪家好
self.file = open('proxy.txt', 'a+')
self.file.write('{}:{}\n'.format(ip,port))
self.file.close()
except Exception as e:
print("訪問失敗")
def close(self):
self.file.close()
mypoxy = MyProxy()
text = mypoxy.GetPage(start_url)
while True:
try:
mypoxy.GetInfo(text)
mypoxy.GetPage(text)
text = mypoxy.GetPage(mypoxy.new_url)
except Exception as e:
print('**'*10)
# mypoxy.close()
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69945560/viewspace-2666808/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- python 爬蟲 代理池Python爬蟲
- Python爬蟲代理池Python爬蟲
- scrapy爬蟲代理池爬蟲
- python爬蟲requests模組Python爬蟲
- Python 爬蟲IP代理池的實現Python爬蟲
- Python requests爬蟲例項Python爬蟲
- 如何建立爬蟲代理ip池爬蟲
- 爬蟲如何使用ip代理池爬蟲
- 爬蟲之代理池維護爬蟲
- 如何用海外HTTP代理設定python爬蟲代理ip池?HTTPPython爬蟲
- python爬蟲利用代理IP分析大資料Python爬蟲大資料
- 快速構建Python爬蟲IP代理池服務Python爬蟲
- python爬蟲之一:requests庫Python爬蟲
- 爬蟲——Requests模組爬蟲
- 爬蟲-Requests模組爬蟲
- Python爬蟲神器requests庫的使用Python爬蟲
- 代理ip池對爬蟲有多重要爬蟲
- 【PhpSelenium】3.定時爬蟲 + 多工爬蟲 + 代理池PHP爬蟲
- [PhpSelenium] 3.定時爬蟲 + 多工爬蟲 + 代理池PHP爬蟲
- 爬蟲之requests庫爬蟲
- python爬蟲常用庫之requests詳解Python爬蟲
- Python3爬蟲實戰(requests模組)Python爬蟲
- Python Beautiful Soup+requests實現爬蟲Python爬蟲
- Python爬蟲教程-06-爬蟲實現百度翻譯(requests)Python爬蟲
- Python 爬蟲實戰(二):使用 requests-htmlPython爬蟲HTML
- JB的Python之旅-爬蟲篇--requests&ScrapyPython爬蟲
- Python 爬蟲實戰(一):使用 requests 和 BeautifulSoupPython爬蟲
- 手把手教你爬蟲代理ip池的建立爬蟲
- 代理ip池對爬蟲有什麼好處爬蟲
- 如何利用ip住宅代理解決python爬蟲遇到反爬措施的問題?Python爬蟲
- Python 爬蟲入門 (二) 使用Requests來爬取圖片Python爬蟲
- python爬蟲:爬蟲的簡單介紹及requests模組的簡單使用Python爬蟲
- python多執行緒非同步爬蟲-Python非同步爬蟲試驗[Celery,gevent,requests]Python執行緒非同步爬蟲
- Python2爬蟲利器:requests庫的基本用法Python爬蟲
- 使用Python和requests庫的簡單爬蟲程式Python爬蟲
- python爬蟲專案(新手教程)之知乎(requests方式)Python爬蟲
- Python爬蟲學習筆記-2.Requests庫Python爬蟲筆記
- 構建一個給爬蟲使用的代理IP池爬蟲