【重複圖識別】在茫茫圖海中，怎麼找到相同的它？

ERKE發表於2020-12-10

原文網址 : https://www.cnblogs.com/ERKE/p/14111989.html

轉載請標明出處

背景

在一些影像相關的專案中，重複圖識別是很重要的。就比如熱圖排行榜（需要識別出重複圖）；涉及影像深度學習的專案（訓練資料需要剔除重複圖）；圖片原創&視訊原創（需要識別出重複圖）等等。

什麼是相同圖片

什麼是相同圖片？相信在不同場景下，這個答案是不一樣。有些場景把肉眼看起來一樣的圖片當作相同圖片，有些場景把用濾鏡處理過的圖片也當作相同圖片，而有些場景下只把原圖當作相同圖片。
這裡按照相同程度劃分，相同程度從高到低，其實可以分為3個等級：

絕對原圖
肉眼相同
抄襲原圖

接下來我們逐一詳細介紹下這3類。

絕對原圖

這個等級，圖片相同的程度是最高的，就如下面2張圖片，1.png通過直接copy的方式產生的2.png

它們從圖片內容已經無法判斷是否是原圖，只能從檔案的角度識別，一般來說都是直接md5判斷2個圖片，如下所示：

它屬於用圖片檔案進行hash處理。

PS：一般來說，所有場景都會先用md5來過濾一邊，因為它演算法複雜度很低，根本不用理解圖片

肉眼相同

這個等級的場景最多，比如圖片訓練資料去重，熱圖排行榜等等。
就如下圖所示，1.png經過壓縮、resize、轉碼等圖片處理的方式產生的3.jpg：

它們肉眼看起來是相同，但是絕對不是原圖，md5無法識別這種情況，只能影像的感知hash處理。感知hash主要有3種（AHash、DHash、PHash），它們都是用圖片內容進行hash處理，只是hash方式不同，下面逐一介紹一波：

AHash

這種感知hash最簡單，演算法複雜度也最低，它只需要處理2步 預處理 + 二值化。

具體流程圖如下所示：

它的二值化方式比較簡單，只是比較了畫素點跟均值，所以效果一般般。

python原始碼如下：

 def ahash(image, hash_size=8):
     image = image.convert("L").resize((hash_size, hash_size), Image.ANTIALIAS)// 1、【預處理】轉灰度圖，resize
     pixels = numpy.asarray(image)
     avg = np.mean(pixels)//2、計算均值，這裡也可以用中值
     diff = pixels > avg // 3、【二值化】大於均值為1，小於等於均值為0
     return diff

DHash

這種感知hash的複雜度也很低，重點是它比AHash的效果好，主要原因它二值化方式考慮上了相鄰畫素的差值，演算法更加魯棒。（當然這只是一種思想，我們也可以比較固定的2個畫素點的大小，每個畫素點都有一個與之對應的畫素點）。
演算法流程圖如下（跟AHash差不多，差別在於二值化方式不一樣）：

python原始碼如下：

 def dhash(image, hash_size=8):
     image = image.convert("L").resize((hash_size + 1, hash_size), Image.ANTIALIAS)// 1、【預處理】轉灰度圖，resize
     pixels = numpy.asarray(image)
     diff = pixels[:, 1:] > pixels[:, :-1] //2、【二值化】相鄰2個元素對比，右邊大於左邊為1，右邊小於等於左邊為0。（也可以改成上下2個元素的對比，或者固定2個元素之間的對比）
     return diff

Phash

Phash是目前效果最好，它引入了DCT變換，去除圖片中的高頻資訊，把注意力集中在低頻資訊中，這是由於人眼對於細節資訊不是很敏感。具體演算法原理見【PHash】更懂人眼的感知雜湊。
phash有很多種改版，下面只給出效果最好的一種，它的演算法流程圖如下：

python 原始碼如下：

 def phash(image, hash_size=8, highfreq_factor=4):
     import scipy.fftpack
     img_size = hash_size * highfreq_factor
     image = image.convert("L").resize((img_size, img_size), Image.ANTIALIAS)// 1、【預處理】轉灰度圖，resize
     pixels = numpy.asarray(image)
     dct = scipy.fftpack.dct(scipy.fftpack.dct(pixels, axis=0), axis=1) //DCT變換
     dctlowfreq = dct[:hash_size, :hash_size] //2、只留下直流&&低頻變數
     med = numpy.median(dctlowfreq) //取中值
     diff = dctlowfreq > med //3、【二值化】大於中值為1，小於等於中值為0
     return diff

抄襲原圖

這種場景也挺多的，而且其中每個場景都有自己獨特的要求。就比如一個視訊平臺，它的視訊原創專案，把加濾鏡、換音訊、裁剪等方式也判定為相同圖片的話，感知hash已經不適用，必須用上影像深度學習了。
一般來說也不需要很強的模型，但是必須針對性的訓練特定場景，就比如濾鏡，logo，黑邊等場景。
濾鏡就如下圖所示，1.png經過一個濾鏡產生了4.png：

還有一種場景是遊戲領域的視訊去重，由於遊戲背景都一樣，只有小小的一塊人物或者名字不同，也是需要針對性的加資料訓練的。

這裡的話，深度學習 MoCo 可能會合適一些。

總結

重複圖在影像相關的專案中基本都會用到，不同的場景用不同的演算法。

	複雜度	適用場景
MD5	超級低	絕對原圖
感知Hash	低	肉眼相同
深度學習	高	特定場景相同

圖片文字識別怎麼實現
2018-09-30
如何免費識別圖片文字？圖片文字識別軟體怎麼用
2021-12-27
圖片區域性識別怎麼操作
2019-06-28
excel批量篩選重複人名 excel怎麼篩選相同的名字
2022-03-13
Excel
excel批次篩選重複人名 excel怎麼篩選相同的名字
2022-03-13
Excel
圖片文字識別工具怎樣進行批次識別圖片？
2019-06-17
電路圖原理圖怎麼畫？它的常用符號有哪些?
2019-10-21
符號
公司位置怎麼上地圖，怎麼在地圖上畫出區域
2021-07-02
地圖
win10怎麼複製圖片的文字_win10怎樣把圖片上的文字複製下來
2019-12-12
Win10
Python 圖文識別
2019-11-09
Python
Tesseract 圖片識別
2019-08-05
重複照片清理工具PhotoSweeper X ，如何清理重複圖片
2020-12-21
【326】PIL 截圖及圖片識別
2018-06-23
paddleocr圖片文字識別
2024-04-17
excel查重是怎麼查的 excel表格怎麼查詢重複項
2022-05-18
Excel
手寫的文字圖片怎樣使用OCR軟體識別？
2021-09-09
茫茫記憶體，我該如何用 windbg 找到你 ?
2021-04-13
記憶體
cad複製快捷鍵命令 cad怎麼複製貼上圖形
2022-06-09
MySQL防止重複插入相同記錄 insert if not exists
2018-03-21
MySql
全面詳解！圖卷積在動作識別方向的應用
2020-01-15
卷積
圖卷積在基於骨架的動作識別中的應用
2019-05-28
卷積
excel怎麼篩選重複的內容 excel找出重複項並提取
2022-02-26
Excel
Openlayers4地圖重複出現的問題
2018-06-14
地圖
Android之背景圖片設定為重複
2018-06-07
Android
Duplicate Photos Fixer Pro for Mac(重複圖片清理)
2022-04-08
Mac
win10怎麼改圖片型別 windows10如何更改圖片型別
2020-10-01
Win10型別Windows
分享：識別圖片文字方法
2021-12-14
Tesseract OCR 圖片文字識別
2021-10-24
怎麼把圖片掃描成文字？轉易俠OCR文字識別軟體
2021-12-28
全面詳解！圖卷積在動作識別方向的應用（下）
2020-01-03
卷積
全面詳解！圖卷積在動作識別方向的應用（上）
2020-01-03
卷積
BIM自動識別三維地圖-Revit模型自動識別三維地圖-IFC模型自動識別三維地圖製作
2022-04-14
地圖模型
位置分佈圖怎麼畫，怎麼做地圖網點分佈圖
2021-07-13
地圖
Advanced Duplicate Cleaner Mac重複檔案識別軟體
2022-09-23
Mac
截圖識別的具體操作方法
2019-06-24
停車場構造圖怎麼畫好看，簡單的停車場地圖怎麼畫圖
2023-03-14
地圖
園區地圖路線規劃圖怎麼做的？廠區三維圖怎麼畫好看？
2023-04-17
地圖
如何將圖片識別成文字？
2024-03-14