數字影像處理（一）之灰度轉換和卷積python實現

段小輝發表於2021-10-08

原文網址 : https://www.cnblogs.com/xiaohuiduan/p/15383270.html

卷積Python

使用Python實現數字影像處理中如下功能：

彩色影像轉成灰度影像
實現影像的相關&卷積操作
實現影像的高斯核卷積

使用的庫和python版本如下：

imageio：2.9.0 用於讀取磁碟中的圖片檔案
numpy：1.20.3 用於矩陣等操作
matplotlib：3.4.2 用於畫圖
python：3.8.11

讀取影像

在進行影像處理操作前，首先需要對影像進行讀取。這裡使用imageio庫對圖片進行讀取，並將其轉成numpy陣列。

下面定義一個covert_img_to_array函式，用於讀取圖片。

def covert_img_to_array(self, path:str) -> np.array:
    """[將圖片轉成Array便於處理]

        Args:
            path (str): [圖片儲存位置]

        Returns:
            np.array: [返回numpy陣列，陣列元素uint8]
        """
    return np.array(imageio.imread(path))

展示圖片

使用matplotlib庫用於展示圖片，為了更高的展示如片，定義下show_img函式，當不指定col或者row時儘量以方正的形式去展示圖片。

def show_img(self,title:str, imgs:list, cmaps:list,row:int = 0,col:int = 0):
    """展示圖片 len(imgs) must equal to the len of cmaps

    Args:
        title (str): [影像標題]
        imgs (list): [圖片元組]
        cmaps (list): [mask,plt以何種形式展示圖片，可參考官方文件使用：'gray'表示灰度圖，None表示彩色圖]
        row (int, optional): [指令row]. Defaults to 0.
        col (int, optional): [指令col]. Defaults to 0.
    """
    if len(imgs) != len(cmaps):
        print("圖片和mask的len必須相同")
    else:
        if row == 0 and col !=0:
            row = np.ceil(len(imgs)/col).astype("uint8")
        elif row!=0 and col == 0:
            col = np.ceil(len(imgs)/row).astype("uint8")
        elif row*col < len(imgs):
            # 儘量以方正的形式去展示圖片
            row = np.ceil(np.sqrt(len(imgs))).astype("uint8")
            col = np.ceil(len(imgs)/row).astype("uint8")

        for index,img in enumerate(imgs):
            plt.subplot(row,col,index+1)
            plt.imshow(img,cmap=cmaps[index])
        plt.suptitle(title)
        plt.show()

彩色影像轉成灰度影像

彩色影像一般來說RGB表示的。也就是說，如果有一張64*64大小的圖片，那麼它在numpy中便是以64*64*3的shape進行儲存的。將RGB圖片轉成灰度圖有兩種方式：

\(gray=\frac{R+G+B}{3}\)
\(gray=R*0.2989 + G*0.5870 + B*0.1140\) 這種灰度轉換稱之為NTSC標準，考慮了人類的彩色感知體驗。

下面定義covert_rgb_to_gray函式，其中method如果為average，則使用第一種方式灰度轉換方式；預設為NTSC，使用第二種方式轉換。

def covert_rgb_to_gray(self, image:np.array, method:str = 'NTSC') -> np.array:
    """將RGB影像轉成gray影像

    Args:
        image (np.array): [rgb影像]
        method (str, optional): [轉換模式]. Defaults to 'NTSC'.

    Returns:
        Array: [返回的灰度影像]
    """
    if method == 'average':
        gray_img = image[:,:,0]/3+image[:,:,1]/3+image[:,:,2]/3
    
    else:
        gray_img = image[:,:,0]*0.2989 + image[:,:,1]*0.5870 + image[:,:,2]*0.1140
    return gray_img

影像卷積

影像卷積的公式如下所示，\(g\)代表輸入的畫素矩陣，\(w\)代表的是權重係數矩陣也就是所謂的卷積核kernel。

\[h(x,y) =\sum_{s=-a}^{a} \sum_{t=-b}^{b} w(s,t)g(x-s,y-t) \]

這裡有一個很需要值得注意的點，那就是相關操作。相關操作和卷積很類似，相關操作的公式如下：

\[h(x,y) =\sum_{s=-a}^{a} \sum_{t=-b}^{b} w(s,t)g(x+s,y+t) \]

在網路有一些部落格文章，在解釋卷積的時候，使用的是第一個公式，但是在做計算或者實現程式碼的時候卻用的是第二個公式，這樣做是不對的。因為卷積的kernel與相關的kernel相差了\(180^{\circ}\)。

但是值得注意的是，在卷積神經網路中，實際上使用的數學公式是相關相關運算，如下圖所示。因為在CNN中，kernel的引數是學習過來的，kernel是否翻轉並不會影響結果。

理解卷積

前置知識：

卷積定理指出，函式卷積的傅立葉變換是函式傅立葉變換的乘積。至於推導，可以查一下資料。

\[\mathcal{F}\{f * g\}=\mathcal{F}\{f\} \cdot \mathcal{F}\{g\} \]

提一下影像卷積的含義。如果一個如下的均值濾波器對影像進行卷積，從人類的直覺進行出發，可以去除噪聲和平滑影像。（在影像中，一般影像噪聲的頻率比較大，影像邊緣部分的頻率也比較大。因此使用均值濾波器可以去除噪聲和平滑影像。）

\[1 / 9\left[\begin{array}{lll} 1 & 1 & 1 \\ 1 & 1 & 1 \\ 1 & 1 & 1 \end{array}\right] \]

那麼為什麼會造成這種現象呢？如何從數學的角度來解釋均值濾波器的作用呢？

如下所示，圖左邊是一個一維均值濾波器的函式影像，圖右邊是均值函式在頻域上面的影像。在右邊影像上，可以發現一個很明顯的特點：頻率越高，\(F(\mu)\)越小。

那麼如果將\(F(\mu)\)與某另外一個頻域上面的函式（比如影像）相乘，顯而易見，如果影像的頻率越高，則\(F(\mu)\)與之相乘被拖下水的的程度就越大。也就是說，相乘之後，頻率低的就被抬上去了，頻率高的被拉下去了。

說的細一點，其實從上圖可以看到，隨著頻率的增大，\(F(\mu)\)並不是嚴格的下降，中間有一個波浪的起伏，這樣會在邊緣造成一些不好的現象。但是高斯濾波不會有這種情況。後面會介紹高斯濾波。

均值濾波器的二維頻域圖如下所示：

矩陣點積

下面定義矩陣點積函式。

def __matrix_dot_product(self,matrix,kernel):
    """矩陣點乘 [1,2,3]*[4,5,6] = 1*4 + 2*5 + 3*6 = 32
    
    Args:
        matrix ([type]): [部分影像]
        kernel ([type]): [kernel]

    Returns:
        [type]: [點乘結果]
    """
    if len(matrix) != len(kernel):
        print("點積失敗，大小不一致")
    else:
        # 速度快
        return (np.multiply(matrix,kernel)).sum()

        # result = 0
        # for i, row_nums in enumerate(matrix):
        #     for j,num in enumerate(row_nums):
        #         result += num * kernel[i][j]
        # return result

影像padding

如果不對影像進行padding的話，會造成一個現象，影像越卷越小。在卷積的時候，我們希望卷積後的影像大小與原影像保持一致（CNN網路可能會越卷越小），因此需要對影像進行padding。padding有兩種方式，一種在填充0，一種是填充與其距離最近的元素。下圖中影像周圍虛線部分就是padding的元素。

下面是實現padding操作的具體函式。實際上，可以直接使用np.pad操作實現。（但是我的作業要求不能使用pad操作，只能自己實現）

    def __padding(self, padding_type:str, image:np.array, padding_w:int, padding_h:int):
        """對圖片進行padding

        Args:
            padding_type (str): [padding方式]
            image (np.array): [圖片]
            padding_w (int): [寬度pdding]
            padding_h (int): [高度padding，一般來說padding_w = padding_h]

        Returns:
            [type]: [返回padding之後的結果]
        """
        image_w = image.shape[0]
        image_h = image.shape[1]

        padding_image = np.zeros((image_w+padding_w*2,image_h+padding_h*2))
        padding_image[padding_w:padding_w+image_w,padding_h:padding_h+image_h] = image

        if padding_type == 'zero':
            return padding_image

        if padding_type == "replicate": 
            # 補充四個角
            padding_image[0:padding_w+1,0:padding_h+1] = image[0,0]
            padding_image[image_w+padding_w-1:,0:padding_h+1] = image[image_w-1,0]
            padding_image[0:padding_w+1,image_h+padding_h-1:] = image[0,image_h-1]
            padding_image[image_w+padding_w-1:,image_h+padding_h-1:] = image[image_w-1,image_h-1]

            # 補充旁邊的元素
            for i in range(padding_w+1,image_w+padding_w-1):
                padding_image[i,0:padding_h] = image[i-padding_w,0]
                padding_image[i,image_h+padding_h:] = image[i-padding_w,image_h-1]
                
            
            for i in range(padding_h+1,image_h+padding_h-1):
                padding_image[0:padding_w,i] = image[0,i-padding_h]
                padding_image[image_w+padding_w:,i] = image[image_w-1,i-padding_h]
            return padding_image

如果想使得卷積之後的結果與原影像一致，padding_w,padding_h為卷積核大小的一半（向下取整，卷積核大小一般是奇數）。比如核的大小是\(5 \times 5\)，那麼padding的長寬便是\(2\)。

影像相關操作

前面說過影像的卷積實際上就是將kernel進行翻轉\(180^{\circ}\)，然後進行相關運算，因此可以先定義相關操作函式：

def corr2D(self, image:np.array, kernel:np.array, padding:str = 'zero') -> np.array:
    """對圖片進行相關運算。

    Args:
        image (np.array): [(*,*)shape的圖片]
        kernel (np.array): [kernel，kernel為奇數]
        padding (str, optional): [zero以零填充，replicate以鄰近的填充]. Defaults to 'zero'.

    Returns:
        [type]: [description]
    """
    kernel_size_w = kernel.shape[0]
    kernel_size_h = kernel.shape[1]

    image_w,image_h = image.shape
    
    
    padding_w = kernel_size_w // 2
    padding_h = kernel_size_h // 2

    # 將圖片padding起來
    padding_image = self.__padding(padding,image,padding_w,padding_h)

    new_image = np.zeros((image_w,image_h))
    for i in range(image_w):
        for j in range(image_h):
            new_image[i][j] = self.__matrix_dot_product(padding_image[i:i+kernel_size_w,j:j+kernel_size_h],kernel)

    return new_image.clip(0,255).astype("uint8")

卷積操作

旋轉kernel

旋轉kernel的程式碼很簡單，如下所示，通過以下操作可以將行和列翻轉（相當於反轉了\(180^{\circ}\)）。

def flip_180(self, arr: np.array) -> np.array:
    return arr[::-1,::-1]

卷積

將kernel繼續寧翻轉，然後進行相關運算便是卷積了。

def conv2D(self, image:np.array, kernel:np.array, padding:str = 'zero') -> np.array:
    """二維卷積

    Args:
        image (np.array): [(*,*)shape的圖片]
        kernel (np.array): [kernel，kernel為奇數]
        padding (str, optional): [zero以零填充，replicate以鄰近的填充]. Defaults to 'zero'.

    Returns:
        [type]: [卷積好的結果]
    """
    return self.corr2D(image,self.flip_180(kernel),padding)

高斯核

二維高斯核的公式如下所示：

\[G(x, y,\sigma_x,\sigma_y)=\frac{1}{2 \pi \sigma_{x}\sigma_{y}} e^{-\left(\frac{x^{2}}{2{\sigma_x}^2} + \frac{y^{2}}{2{\sigma_y}^2}\right)} \]

二維高斯核的頻域圖如下所示。

下面是二維高斯濾波函式的定義，其中\(\sigma_x=\sigma_y=sig\)。並對卷積核進行歸一化，使得所有元素加起來和為1。

    def gauss_2d_kernel(self,sig,m=0):
        """產生高斯核

        Args:
            sig ([type]): [高斯核引數 sigx = sigy]
            m (int, optional): [高斯kernel的大小]. Defaults to 0. if m=0，then m = ceil(3*sig)*2 +1

        Returns:
            [type]: [m*m大小的高斯核]
        """
        fit_m = math.ceil(3 * sig)*2+1

        if m == 0:
            m = fit_m
        if m < fit_m:
            print("你的核的size應該大一點")
        
        # 中心點
        center = m //2
        kernel = np.zeros(shape=(m,m))
        for i in range(m):
            for j in range(m):
                kernel[i][j] = (1/(2*math.pi*sig**2))*math.e**(-((i-center)**2+(j-center)**2)/(2*sig**2))
		# 歸一化
        return kernel/(kernel.sum())

結果

灰度轉換結果

高斯核卷積

參考

數字影像處理（第三版）

影像處理中的valid卷積與same卷積
2020-06-20
卷積
數字訊號處理：線性卷積、迴圈卷積、圓周卷積計算
2021-04-04
卷積
數字影像處理實驗之對比度拉伸
2019-07-17
數字影像處理實驗（四）影像銳化
2020-11-05
LSTM的備胎，用卷積處理時間序列——TCN與因果卷積（理論+Python實踐）
2020-05-20
卷積Python
如何使用卷積神經網路進行影像處理？
2020-10-13
卷積神經網路
【數字影像處理】影像形態學演算法C語言實現（影像卷積，膨脹，腐蝕，開運算，閉運算，頂帽，黑帽，雕版，銳化）
2020-11-25
演算法C語言卷積
數字影像處理day_12 影像分割
2020-10-10
Yann LeCun：ViT慢且效率低，實時影像處理還得看卷積
2024-06-03
Yann LeCun卷積
Python影像處理丨三種實現影像形態學轉化運算模式
2022-07-19
Python模式
演算法 | 數字影像處理之「中值濾波」
2023-04-13
演算法
[00]數字影像處理-matlab速成
2021-03-04
Matlab
數字影像處理學習筆記（1）——傅立葉變換在影像處理中的應用
2020-04-05
筆記
【傳統影像處理】1 數字影像基礎
2020-11-07
數字影像處理--認識影像各種概念
2018-03-08
Python 影像處理 OpenCV （5）：影像的幾何變換
2020-05-25
PythonOpenCV
python 包之 Pillow 影像處理教程
2022-04-11
Python
python實現字串轉換整數
2019-02-20
Python字串
數字影像處理相關練習
2020-10-14
數字影像處理-取樣量化(Matlab)
2020-10-19
Matlab
影像的卷積和池化操作
2019-03-04
卷積
用Python實現阿拉伯數字轉換成中國漢字
2024-09-09
Python
Android影像灰度化、線性灰度變化、二值化處理方法
2018-11-08
Android
python實現中文和unicode轉換
2023-05-14
PythonUnicode
[譯] 使用 Python 和 Keras 實現卷積神經網路
2018-05-07
PythonKeras卷積神經網路
Python影像處理丨5種影像處理特效
2022-11-17
Python特效
個人實驗程式碼記錄 | 數字影像處理實驗3·影像直方圖與均衡化處理
2020-11-04
直方圖
【MATLAB Image Processing Toolbox 入門教程九】“匯入、匯出和轉換”之“影像序列和批處理”
2020-12-18
Matlab
迴圈碼、卷積碼及其python實現
2022-06-19
卷積Python
如何將GIMP（GNU 影像處理程式）轉換成PhotoShop？
2020-07-18
Python 影像處理 OpenCV （6）：影像的閾值處理
2020-06-05
PythonOpenCV
Python 影像處理 OpenCV （7）：影像平滑（濾波）處理
2020-06-06
PythonOpenCV
[Python影像處理] 三十.影像量化及取樣處理萬字詳細總結（推薦）
2020-11-12
Python
Python 編碼轉換與中文處理
2021-09-09
Python
FPGA數字訊號處理（27）卷積編碼器與Viterbi譯碼器設計
2018-09-18
FPGA卷積Viterbi
Python 實現Excel和TXT文字格式之間的相互轉換
2024-07-22
PythonExcel
Python數字轉換中文大寫
2020-10-15
Python
Win8 Metro(C#)數字影像處理--2.62影像對數增強
2018-03-13
C#