相似圖片搜尋的原理

阮一峰發表於2011-07-21

上個月，Google把"相似圖片搜尋"正式放上了首頁。

你可以用一張圖片，搜尋網際網路上所有與它相似的圖片。點選搜尋框中照相機的圖示。

一個對話方塊會出現。

相似圖片搜尋的原理

你輸入網片的網址，或者直接上傳圖片，Google就會找出與其相似的圖片。下面這張圖片是美國女演員Alyson Hannigan。

相似圖片搜尋的原理

上傳後，Google返回如下結果：

相似圖片搜尋的原理

類似的"相似圖片搜尋引擎"還有不少，TinEye甚至可以找出照片的拍攝背景。

相似圖片搜尋的原理

==========================================================

這種技術的原理是什麼？計算機怎麼知道兩張圖片相似呢？

根據Neal Krawetz博士的解釋，原理非常簡單易懂。我們可以用一個快速演算法，就達到基本的效果。

這裡的關鍵技術叫做"感知雜湊演算法"（Perceptual hash algorithm），它的作用是對每張圖片生成一個"指紋"（fingerprint）字串，然後比較不同圖片的指紋。結果越接近，就說明圖片越相似。

下面是一個最簡單的實現：

第一步，縮小尺寸。

將圖片縮小到8x8的尺寸，總共64個畫素。這一步的作用是去除圖片的細節，只保留結構、明暗等基本資訊，摒棄不同尺寸、比例帶來的圖片差異。

相似圖片搜尋的原理

第二步，簡化色彩。

將縮小後的圖片，轉為64級灰度。也就是說，所有畫素點總共只有64種顏色。

第三步，計算平均值。

計算所有64個畫素的灰度平均值。

第四步，比較畫素的灰度。

將每個畫素的灰度，與平均值進行比較。大於或等於平均值，記為1；小於平均值，記為0。

第五步，計算雜湊值。

將上一步的比較結果，組合在一起，就構成了一個64位的整數，這就是這張圖片的指紋。組合的次序並不重要，只要保證所有圖片都採用同樣次序就行了。

相似圖片搜尋的原理 = = 8f373714acfcf4d0

得到指紋以後，就可以對比不同的圖片，看看64位中有多少位是不一樣的。在理論上，這等同於計算"漢明距離"（Hamming distance）。如果不相同的資料位不超過5，就說明兩張圖片很相似；如果大於10，就說明這是兩張不同的圖片。

具體的程式碼實現，可以參見Wote用python語言寫的imgHash.py。程式碼很短，只有53行。使用的時候，第一個引數是基準圖片，第二個引數是用來比較的其他圖片所在的目錄，返回結果是兩張圖片之間不相同的資料位數量（漢明距離）。

這種演算法的優點是簡單快速，不受圖片大小縮放的影響，缺點是圖片的內容不能變更。如果在圖片上加幾個文字，它就認不出來了。所以，它的最佳用途是根據縮圖，找出原圖。

實際應用中，往往採用更強大的pHash演算法和SIFT演算法，它們能夠識別圖片的變形。只要變形程度不超過25%，它們就能匹配原圖。這些演算法雖然更復雜，但是原理與上面的簡便演算法是一樣的，就是先將圖片轉化成Hash字串，然後再進行比較。

UPDATE（2013.03.31）

這篇文章還有續集，請看這裡。

（完）

相似圖片搜尋的原理（二）
2013-03-31
Google 按圖搜尋的原理
2013-03-23
Go
淘寶拍立淘介面，圖片搜尋介面，圖片識別介面，以圖搜貨介面，按圖搜尋介面程式碼教程
2023-04-09
搜尋引擎-03-搜尋引擎原理
2024-04-04
以圖搜圖三大搜尋引擎：Google圖片、TinEye、百度識圖
2012-05-30
Go
Python爬蟲搜尋並下載圖片
2017-12-13
Python爬蟲
解鎖1688圖片搜尋API介面：一鍵獲取相似商品，開啟智慧視覺新篇章
2024-02-05
API視覺
搜尋引擎原理及使用
2017-03-03
midjourney 生成相似型別圖片
2024-07-22
型別
【搜尋引擎】 PostgreSQL 10 實時全文檢索和分詞、相似搜尋、模糊匹配實現類似Google搜尋自動提示
2019-07-11
SQL分詞Go
深度解析搜尋引擎的原理結構
2015-05-14
python sift 特徵匹配圖片相似度
2020-12-30
Python特徵
老司機帶你檢測相似圖片
2017-10-18
圖片相似度對比SSIM和PHash
2024-08-20
1688圖片搜尋介面，拍立淘介面程式碼展示
2023-03-01
Android MVP+LoaderManager+CursorLoader實現圖片搜尋
2018-01-11
AndroidMVP
以圖搜尋——網際網路影象搜尋引擎的“雞肋”？
2013-04-25
Facebook AI 相似性搜尋 (Faiss)快速上手手冊 - pinecone
2021-11-22
AI
搜尋引擎工作的基礎流程與原理
2012-11-05
Elasticsearch 近實時搜尋的底層原理
2024-06-17
Elasticsearch
Qt實現圖片拖拽上傳過濾資料夾內圖片自動搜尋列表展示
2024-07-24
QT
搜尋Idiot就出現川普圖片，演算法無罪！
2018-12-13
演算法
"淘寶拍立淘圖片搜尋介面：輕鬆找到同款商品！"
2023-10-10
淘寶拍立淘圖片搜尋介面：輕鬆找到同款商品！
2024-01-16
如何關鍵字搜尋下載敦煌網、淘寶等平臺的商品圖片
2020-10-21
js實現的圖片相似度演算法程式碼
2017-03-19
JS演算法
利用python進行識別相似圖片(二)
2016-02-27
Python
Bing搜尋核心技術BitFunnel原理
2019-11-20
轉貼：google搜尋原理論文1
2005-12-28
Go
圖的廣度優先搜尋和深度優先搜尋Python實現
2020-11-29
Python
不明惡意攻擊致<搜狗搜尋><搜尋結果>跳轉<百度搜尋>技術原理分析
2017-09-29
知識圖譜——搜尋引擎的未來
2019-08-13
直播軟體開發，自定義搜尋欄的圖示樣式和搜尋框
2022-03-07
【轉】感知雜湊演算法——找出相似的圖片
2015-07-16
演算法
google圖書搜尋上線了~~
2008-07-25
Go
Elasticsearch線上搜尋引擎讀寫核心原理深度認知-搜尋系統線上實戰
2019-03-03
Elasticsearch
用一個圖書庫例項搞懂二分搜尋樹的底層原理
2020-06-23
淺析oracle b-tree index搜尋原理
2018-06-27
OracleIndex

相似圖片搜尋的原理

相關文章