數美驗證碼-空間推測-爬蟲

xXinG9199發表於2024-04-26

原文網址 : https://www.cnblogs.com/xxing/p/18161058

前言

因為要訓練識別驗證碼的模型，需要爬取源資料。
如果需要其他的型別，自行修改

爬取結果

這邊把圖片跟文字命名一樣的。

程式碼

import time
import json
import requests


def save_image_from_url(url, file_path):
    response = requests.get(url)
    with open(file_path, 'wb') as f:
        f.write(response.content)


if __name__ == '__main__':
    """
    @author: xXinG
    @dec:    爬取數美驗證碼空間 邏輯推理圖片、文字
    @time: 2023/4/26 19:50
    """

    execute_count = 100  # 爬取條數

    start_time = time.time()
    for i in range(execute_count):
        url = "https://captcha1.fengkongcloud.cn/ca/v1/register"

        querys = {"callback": "0", "channel": "DEFAULT",
                  "captchaUuid": "20240426194937QdanEmbtwJrRaJwbdG", "rversion": "1.0.4", "lang": "zh-cn",
                  "data": "{}", "model": "spatial_select", "sdkver": "1.1.3", "organization": "d6tpAY1oV0Kv5jRSgxQr",
                  "appId": "default"}

        response = requests.request("GET", url, params=querys)
        data_str = response.text[2:-1]  # 去掉字串開頭的'0('和結尾的')'
        data_dict = json.loads(data_str)  # 將字串轉換為字典

        if data_dict['code'] == 1100:
            url = data_dict['detail']['bg']  # 圖片url, 需要加上  https://castatic.fengkongcloud.cn/
            des = data_dict['detail']['order']  # 空間目標描述

            last_slash_index = url.rfind('/')
            jpg_start_index = url.find('.jpg')
            name = url[last_slash_index + 1:jpg_start_index]  # 圖片命名

            save_image_from_url('https://castatic.fengkongcloud.cn' + data_dict['detail']['bg'],
                                './result/img/' + name + '.jpg')

            with open("./result/label/" + name + '.txt', "w", encoding="utf-8") as f:
                f.write(des[0])
            print("完成 -> " + name)

    end_time = time.time()
    print("總共用時: " + str(end_time - start_time) + "秒")

這邊測試爬取100張

給大家看看訓練好的模型哈哈

python爬蟲之處理驗證碼
2019-03-01
Python爬蟲
爬蟲進階教程：極驗(GEETEST)驗證碼破解教程
2018-12-24
爬蟲
爬蟲遇到頭疼的驗證碼？教你彈窗處理和驗證碼識別
2020-12-30
爬蟲
Python爬蟲入門【3】：美空網資料爬取
2019-07-30
Python爬蟲
JB的Python之旅-爬蟲篇-圖形驗證碼(3)-- 驗證碼的生成了解下
2018-06-14
Python爬蟲
Python爬蟲入門教程 55-100 python爬蟲高階技術之驗證碼篇
2019-04-02
Python爬蟲
Python爬蟲入門教程 57-100 python爬蟲高階技術之驗證碼篇3-滑動驗證碼識別技術
2019-04-11
Python爬蟲
爬蟲實戰 -- QQ空間自動點贊
2020-10-01
爬蟲
Python爬蟲教程-29-驗證碼識別-Tesseract-OCR
2018-09-06
Python爬蟲
JB的Python之旅-爬蟲篇-圖形驗證碼(1)-- tesserocr
2018-06-09
Python爬蟲
Python web自動化爬蟲-selenium/處理驗證碼/Xpath
2024-07-18
PythonWeb爬蟲
那些年，我爬過的北科(八)——反反爬蟲之驗證碼識別
2018-12-08
爬蟲
【爬蟲】爬蟲專案推薦 / 思路
2020-04-21
爬蟲
爬蟲模擬登入破解無原圖滑動驗證碼
2019-06-19
爬蟲
【爬蟲系列】1. 無事，Python驗證碼識別入門
2021-08-07
爬蟲Python
Python爬蟲入門【4】：美空網未登入圖片爬取
2019-07-30
Python爬蟲
Python爬蟲入門教程 58-100 python爬蟲高階技術之驗證碼篇4-極驗證識別技術之一
2019-04-12
Python爬蟲
【驗證碼逆向專欄】數美驗證碼全家桶逆向分析以及 AST 獲取動態引數
2023-05-08
AST
Python爬蟲入門教程 4-100 美空網未登入圖片爬取
2018-12-17
Python爬蟲
JB的Python之旅-爬蟲篇-圖形驗證碼(2)-- 收費OCR瞭解下
2018-06-11
Python爬蟲
「資料分析」2種常見的反爬蟲策略，資訊驗證和動態反爬蟲
2022-02-23
爬蟲
爬蟲驗證碼的幾種處理方式，已封裝成類，文章末尾有原始碼！
2020-10-24
爬蟲封裝原始碼
python爬蟲-33個Python爬蟲專案實戰(推薦)
2020-10-28
Python爬蟲
爬蟲黑科技-繞開百度人機驗證
2018-11-20
爬蟲
實用爬蟲-01-檢測爬蟲的 IP
2018-09-08
爬蟲
爬蟲headers引數
2020-10-25
爬蟲Header
Python爬蟲入門教程 56-100 python爬蟲高階技術之驗證碼篇2-開放平臺OCR技術
2019-04-09
Python爬蟲
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
PbootCMS後臺關閉驗證碼，登入提示驗證碼不能空的解決方法
2024-08-14
boot
簡訊驗證碼測試項
2018-07-31
Python爬蟲教程-03-使用 chardet 檢測編碼
2018-09-06
Python爬蟲
scrapy 爬蟲利器初體驗(1)
2018-11-26
爬蟲
【推薦】最高效的Python爬蟲框架！
2021-05-25
Python爬蟲框架
selenium自動爬取網易易盾的驗證碼
2020-07-20
網站漏洞檢測身份驗證碼與重要操作驗證碼安全問題
2019-08-27
網站
爬蟲：多程式爬蟲
2021-05-19
爬蟲
SSL證書是如何驗證的？驗證方式推薦
2022-11-29
如何爬取視訊的爬蟲程式碼原始碼
2020-12-26
爬蟲原始碼

數美驗證碼-空間推測-爬蟲

前言

給大家看看訓練好的模型 哈哈

相關文章

給大家看看訓練好的模型哈哈