圖片裁剪-文字識別-文字新增

云岛夜川川發表於2024-07-23

原文網址 : https://www.cnblogs.com/iruan/p/18317380

前言

物件接到朋友的委託將幾十張截圖的鞋子圖片進行裁剪，再貼上鞋子的款式。想著這不是可以使用指令碼來完成嗎，人工多累呀。

圖片裁剪

使用 Image庫中的crop函式，傳入的引數是一個座標元組，左上角的座標和右下角的座標。（x1,y1,x2,y2）,裁剪好之後使用save儲存。

def crop_img(img_path,save_name):
    img = Image.open(img_path)
    filename = img.filename[:-4]
# 獲取鞋子的位置（根據實際情況調整）
    shoes_box = (0, 400, 1080, 1250)  # 左上X,左上Y,右下X,右下Y
    shoes_img = img.crop(shoes_box)
    shoes_img.save(save_name)
    print('crop save ok')
    return save_name

文字識別

使用pytesseract來實現，使用其中的函式image_to_string()來識別。需要先安裝tesseract。安裝地址https://digi.bib.uni-mannheim.de/tesseract/?C=M;O=D

效果還不錯。

庫安裝

pip install pytesseract安裝庫，
再安裝tesseract,上面連結地址，然後安裝好後將軟體的安裝地址加入環境變數。

使用tesseract --version可以檢測安裝是否成功。
如果不配置環境變數就不會使用預設路徑來執行tesseract。

中文識別

使用官方預設不支援識別中文，需要下載中文包。地址https://github.com/tesseract-ocr/tessdata/tree/main 中的chi_sim.traineddata。為中文簡體包。下載下來之後放入tesseract的tessdata目錄下。
就可以使用pytesseract.image_to_string(img,lang='chi_sim')來識別中文了。

def ocr_text(img_path):
    img = Image.open(img_path).convert('L') #L表示以灰度模式開啟，可提高檢測效果

    text = pytesseract.image_to_string(img,lang='chi_sim1')
    part = r'鞋.*款'
    match_ = re.search(part, text).group()[1::].replace(' ', '')
    # print(text)
    return match_

文字新增

def cv2_img_add_text_with_bg(img_path,
                            result_img_path,
                             text: str,
                             left: int,
                             top: int,
                             textColor=(255, 0, 0),
                             textSize=20,
                             bgColor=(0, 0, 0),  # 新增：文字背景顏色，預設為黑色
                             bgPadding=(5, 5),     # 新增：文字背景邊緣 padding，預設各方向5畫素
                             filepath="D:\\app\\ocr\\tessdata\\simsun.ttc",

                             ):
    """
    在圖片上寫中文文字，並帶有指定顏色的背景
    """


    img = cv2.imread(img_path)
    if isinstance(img, np.ndarray):  # 確保是OpenCV影像格式
        img_pil = Image.fromarray(cv2.cvtColor(img, cv2.COLOR_BGR2RGB))
    else:
        raise TypeError("img must be a numpy ndarray")

    draw = ImageDraw.Draw(img_pil)
    fontStyle = ImageFont.truetype(filepath, textSize, encoding="utf-8")

    # 計算文字框的尺寸以確定背景矩形的大小
    # 使用getbbox()方法間接獲取文字尺寸，注意getbbox返回的是一個包含左上角和右下角座標的元組
    text_bbox = draw.textbbox((0, 0), text, font=fontStyle)
    textWidth = text_bbox[2] - text_bbox[0]
    textHeight = text_bbox[3] - text_bbox[1]

    # 繪製背景矩形
    bgLeft = left - bgPadding[0]
    bgTop = top - bgPadding[1]
    draw.rectangle([(bgLeft, bgTop), (bgLeft + textWidth, bgTop + textHeight)], fill=bgColor)

    # 繪製文字
    draw.text((left, top), text, textColor, font=fontStyle)

    # 轉換回OpenCV格式並返回
    img_text = cv2.cvtColor(np.array(img_pil), cv2.COLOR_RGB2BGR)

    cv2.imwrite(result_img_path,img_text)

    print('put ok')

中文字型下載http://xiazaiziti.com/category/zhongwenziti

例項程式碼和效果


import pytesseract
import re

import numpy as np
from PIL import Image, ImageDraw, ImageFont
import cv2
import os

# 讀取圖片

num = 1
def crop_img(img_path,save_name):
    img = Image.open(img_path)
    filename = img.filename[:-4]
# 獲取鞋子的位置（根據實際情況調整）
    shoes_box = (0, 400, 1080, 1250)  # 左上X,左上Y,右下X,右下Y
    shoes_img = img.crop(shoes_box)
    shoes_img.save(save_name)
    print('crop save ok')
    return save_name

img_path = "D:\\Desktop\\1.jpg"
img_crop_path = "D:\\Desktop\\1_crop.jpg"
# crop_img(img_path)
def ocr_text(img_path):
    img = Image.open(img_path).convert('L') #L表示灰度模式，可提高檢測效果

    text = pytesseract.image_to_string(img,lang='chi_sim1')
    part = r'鞋.*款'
    match_ = re.search(part, text).group()[1::].replace(' ', '')
    # print(text)
    return match_

def cv2_img_add_text_with_bg(img_path,
                            result_img_path,
                             text: str,
                             left: int,
                             top: int,
                             textColor=(255, 0, 0),
                             textSize=20,
                             bgColor=(0, 0, 0),  # 新增：文字背景顏色，預設為黑色
                             bgPadding=(5, 5),     # 新增：文字背景邊緣 padding，預設各方向5畫素
                             filepath="D:\\app\\ocr\\tessdata\\simsun.ttc",

                             ):
    """
    在圖片上寫中文文字，並帶有指定顏色的背景
    """


    img = cv2.imread(img_path)
    if isinstance(img, np.ndarray):  # 確保是OpenCV影像格式
        img_pil = Image.fromarray(cv2.cvtColor(img, cv2.COLOR_BGR2RGB))
    else:
        raise TypeError("img must be a numpy ndarray")

    draw = ImageDraw.Draw(img_pil)
    fontStyle = ImageFont.truetype(filepath, textSize, encoding="utf-8")

    # 計算文字框的尺寸以確定背景矩形的大小
    # 使用getbbox()方法間接獲取文字尺寸，注意getbbox返回的是一個包含左上角和右下角座標的元組
    text_bbox = draw.textbbox((0, 0), text, font=fontStyle)
    textWidth = text_bbox[2] - text_bbox[0]
    textHeight = text_bbox[3] - text_bbox[1]

    # 繪製背景矩形
    bgLeft = left - bgPadding[0]
    bgTop = top - bgPadding[1]
    draw.rectangle([(bgLeft, bgTop), (bgLeft + textWidth, bgTop + textHeight)], fill=bgColor)

    # 繪製文字
    draw.text((left, top), text, textColor, font=fontStyle)

    # 轉換回OpenCV格式並返回
    img_text = cv2.cvtColor(np.array(img_pil), cv2.COLOR_RGB2BGR)

    cv2.imwrite(result_img_path,img_text)

    print('put ok')


def get_file_names(directory):
    """
    返回指定目錄下所有檔案的名稱列表（不包括子目錄中的檔案）。

    :param directory: 要讀取的目錄路徑
    :return: 檔名列表
    """
    # 確保給定的路徑是絕對路徑，以避免相對路徑可能引起的錯誤
    abs_directory = os.path.abspath(directory)

    # 使用listdir()獲取目錄中的所有條目
    entries = os.listdir(abs_directory)

    # 過濾出檔案（而非子目錄）
    file_names = [entry for entry in entries if os.path.isfile(os.path.join(abs_directory, entry))]

    return file_names

if __name__ == "__main__":
    num =1
    save_directory = 'D:\\Desktop\\save\\crop\\'
    file_ = 'D:\\app\\QQ\\Filerev\\'
    filelist = get_file_names(file_)
    for file in filelist:
        file_path = file_ +file

        text = ocr_text(file_path)
        print(text)
        cro_save_file_name = save_directory + file
        crop_img(file_path,cro_save_file_name)
        result_img = 'D:\\Desktop\\save\\result\\'+file
        cv2_img_add_text_with_bg(cro_save_file_name, result_img,text, 800, 750, textColor=(255, 255, 255), textSize=70)

將下面這張圖片

轉成：

paddleocr圖片文字識別
2024-04-17
如何免費識別圖片文字？圖片文字識別軟體怎麼用
2021-12-27
分享：識別圖片文字方法
2021-12-14
Tesseract OCR 圖片文字識別
2021-10-24
如何將圖片識別成文字？
2024-03-14
圖片識別文字具體操作
2021-11-03
圖片識別文字，分享給你！
2022-03-15
哪個圖片識別文字app能快速轉換圖片成文字？
2021-04-13
APP
圖片文字識別工具怎樣進行批次識別圖片？
2019-06-17
圖片文字識別怎麼實現
2018-09-30
使用Tesseract進行圖片文字識別
2024-12-06
識別圖片文字轉換成word文字真的很難嗎？分享圖片轉文字的技巧
2019-04-25
有道自然語言翻譯和文字識別OCR(圖片文字識別)介面呼叫
2019-04-04
CSS圖片上面新增文字說明
2018-09-05
CSS
Java 實現OCR掃描/識別圖片文字
2024-04-01
Java
OCR圖片文字識別軟體：Initiater Pro for Mac
2024-01-11
Mac
實現圖片文字識別的方法有哪些
2019-04-29
如何輕鬆識別圖片文字？請看教程
2021-12-29
Java如何使用Tessdata做OCR圖片文字識別
2021-07-28
Java
從圖片提取文字的終極解決方法 ——【通用文字識別 API】
2023-03-29
API
【Go語言繪圖】圖片新增文字（二）
2021-08-01
Go繪圖
【Go語言繪圖】圖片新增文字（一）
2020-12-20
Go繪圖
GD 庫 PNG 透明底圖片新增文字及圖片水印
2019-07-24
怎麼把圖片掃描成文字？轉易俠OCR文字識別軟體
2021-12-28
JavaScript圖片文字識別（OCR）外掛Ocrad.js教程
2018-12-05
JavaScriptJS
Java基於百度API的圖片文字識別
2018-09-26
JavaAPI
Python呼叫百度OCR介面圖片識別轉文字
2022-04-23
Python
通用文字識別API-通用文字識別介面可以識別哪些場景文字
2024-10-21
API
儲存圖片文字的好幫手——雲脈文件識別
2020-02-07
Python3呼叫百度OCR圖片文字識別API
2020-08-20
PythonAPI
手寫的文字圖片怎樣使用OCR軟體識別？
2021-09-09
?白piao？iText 1.7.4 中文版 (OCR圖片文字識別工具)
2020-12-09
C# 10分鐘完成百度圖片提取文字（文字識別）——入門篇
2019-08-01
C#
vue專案新增圖片裁剪元件
2020-12-16
Vue元件
mac上如何提取圖片上的文字？幾款不錯的OCR文字識別工具推薦
2021-02-02
Mac
文字識別（三）--文字定位與切割
2019-02-18
PHP 圖片、文字合成
2019-02-16
PHP
【python】圖片插入文字
2018-11-07
Python