辦公利器！用Python批量識別發票並錄入到Excel表格

Python研究者發表於2021-06-24

原文網址 : https://www.cnblogs.com/chenlove/p/14928412.html

PythonExcel

辰哥今天來分享一篇辦公幹貨文章：用Python批量識別發票並錄入到Excel表格。對於財務專業等學生或者公司財務人員來說，將報賬發票等彙總到excel簡直就是一個折磨。

尤其是到年底的時候，公司的財務人員面對一大堆的發票簡直就是苦不堪言。正好我們學會了Python，我們應該將Python的優勢發揮起來。$#

01.場景描述

這裡有以四張發票為例（辰哥網上搜的），將發票圖片放到pic資料夾下。

隨便開啟一張發票

提取目標：金額、名稱、納稅人識別號、開票人。

最後將每一張發票的這四個內容儲存到excel中：

02.準備環境

需要用到的庫如下：

from PIL import Image as PI
import pyocr
import pyocr.builders
from cnocr import CnOcr

安裝的命令如下：

pip install pyocr
pip install cnocr

發票中含有中文內容，我們需要對圖片中的中文進行識別，那麼 cnocr 是一個不錯的選擇。

提示：安裝好上面的庫之外，還需要安裝額外的exe檔案，不然會出現下面這種錯誤

需要安裝的exe檔案：

1. ImageMagick

2. tesseract-OCR

這兩個軟體的安裝過程就不再贅述了，大家可以自行搜尋教程進行安裝。

03.提取內容

下面以其中一張圖片為例，講解如何提取目標內容：金額、名稱、納稅人識別號、開票人。

讀取圖片：pic/pic1.jpg

tool = pyocr.get_available_tools()[0]
img_url = "pic/pic1.jpg"
with open(img_url, 'rb') as f:
    a = f.read()
new_img = PI.open(io.BytesIO(a))

1.提取金額

需要擷取到發票中金額的位置

## 金額
left = 741
top = 420
right = 850
bottom = 445
image_text1 = new_img.crop((left, top, right, bottom))
#展示圖片
image_text1.show()

這裡的left、top、right、bottom的數值是通過多次修改定位而來。大家根據自己的發票內容去定位即可。

接著將圖片中的數字提取出來

同樣的，下面繼續提取：名稱

2.提取名稱

left = 155
top = 450
right = 450
bottom = 470
image_obj2 = new_img.crop((left, top, right, bottom))
image_obj2.show()

這裡的名稱是中文的，我們們不能再像提取金額（數字）操作。需要使用到cnocr去將圖片中的中文取出。

image_obj2.save("tmp.jpg")
ocr = CnOcr()
res = ocr.ocr("tmp.jpg")
print("".join(res[0]))

3.提取納稅人識別號

#納稅人識別號
left = 155
top = 470
right = 450
bottom = 490
image_text3 = new_img.crop((left, top, right, bottom))
#展示圖片
image_text3.show()

txt3 = tool.image_to_string(image_text3)
print(txt3)

將圖片中的納稅人識別號提取出來，結果如下：

4.提取開票人

left = 528
top = 550
right = 670
bottom = 600
image_obj4 = new_img.crop((left, top, right, bottom))
image_obj4.show()

image_obj4.save("tmp.jpg")
ocr = CnOcr()
res = ocr.ocr("tmp.jpg")
print("".join(res[0]))

由於有中文，我們們這裡同樣和提取名稱一樣，使用cnocr將圖片中的中文取出。

ok這樣我們就將發票中的四個目標內容提取出來，接著將資料夾pic下的所有發票，進行識別將內容儲存到excel。

04.批量識別發票並儲存到excel

在讀取圖片之前，先將上面的四個操作封裝成函式，方便每一種發票物件進行呼叫。

讀取資料夾下的所有圖片。

filePath = 'pic'
pic_name = []
for i,j,name in os.walk(filePath):
    pic_name = name
for i in pic_name:
    print(i)

開始進行識別，並將結果寫入到excel中。

for i in pic_name:
    img_url = filePath+"/"+i
    with open(img_url, 'rb') as f:
        a = f.read()
    new_img = PI.open(io.BytesIO(a))
    ## 寫入csv
    outws.cell(row=count, column=1, value=text2(new_img))
    outws.cell(row=count, column=2, value=text3(new_img))
    outws.cell(row=count, column=3, value=text1(new_img))
    outws.cell(row=count, column=4, value=text4(new_img))
    count = count + 1
outwb.save("發票彙總-李運辰.xls")  # 儲存結果

最後儲存為：發票彙總-李運辰.xls，其結果如下：

05.發票驗證真偽

在辰哥的交流群裡，和小夥伴聊到這個內容時，小夥伴建議可以加一個功能：發票驗證真偽。

所有在上面的開始識別之前（自己公司的發票可能不需要查驗這步），先呼叫一下第三方的介面，對發票進行識別，識別通過之後再將其提取發票中目標內容。

1.申請百度AI應用

2.獲取token

# client_id 為官網獲取的AK， client_secret 為官網獲取的SK
host = 'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=【官網獲取的AK】&client_secret=【官網獲取的SK】'
response = requests.get(host)
if response:
    print(response.json()['access_token']

這裡的client_id 為官網獲取的AK， client_secret 為官網獲取的SK，是上面申請好應用即可獲取