資料科學專案
“評估統計演算法在銀行偽造鈔票檢測中的價值”
by 吳同學
目的
這個資料科學專案的目的是提出一種可靠的演算法,以便透過光學掃描器或類似工具,銀行可以區分“真鈔”和“偽造”鈔票。一般來說,光學掃描器會檢測每張鈔票的某些特徵,並將它們傳送到一個演算法,該演算法將建議將鈔票分類為“真鈔”或“偽造鈔票”。然後,“偽造”的鈔票將退出流通。
我們的建議是使用一種稱為“k-means聚類”的技術的統計演算法。
資料說明
為了評估這是否是分離鈔票的好方法,我們對 1372 張鈔票樣本進行了測試,這些樣本取自 OpenML 網站,由於其尺寸很大,這對我們來說似乎是一個很好的樣本。該樣本包含從每張鈔票(V1 和 V2)中獲取的 2 個特徵,這些特徵實際上是從真偽和偽造的類似鈔票的樣本中提取的影像中提取的。
圖1 - 原始資料
如示例資料描述中所述,對於數字化,使用了通常用於印刷檢查的工業相機。最終影像具有 400x 400 畫素。由於物鏡和與被研究物的距離,獲得了解析度約為660 dpi的灰度影像。使用一種特殊的工具(稱為“小波變換”)從影像中提取特徵。
方法:如何分析資料
首先透過描述性統計(例如平均值、標準差、最大值、最小值)分析資料,以瞭解樣本特徵。然後,我們繪製了結果。
圖2 - 原始資料散點圖
之後,我們還使用了一種稱為“最小-最大標準化”的技術,以便為分析適當縮放資料。
最後,我們對資料執行了 2 均值演算法,以分析它是否能夠區分真鈔和偽造鈔票的 2 簇。我們執行了幾次以評估其整體穩定性。
圖3 - 資料2均值聚類
這種方法的強度和侷限性
我們分析的主要優點是所使用的演算法非常容易實現,並且快速高效。我們分析的侷限性在於,我們假設樣本資料代表了流通中的紙幣(包括真鈔和偽造鈔票)的總體數量。此外,據我們所知,該樣本是在 2012 年收集的。過去 11 年的技術進步可能會改變樣品的可靠性。
在建模方面,我們使用了 k - means聚類技術,因為它看起來適合這種分析,儘管可能已經實現了其他有用的技術,例如 DBSCAN 聚類。進一步的分析可能會嘗試比較這兩種方法,以評估哪一種似乎更好。
結果摘要
最後,我們將模型預測與觀察資料中的實際鈔票分類進行了比較。該模型最終的預測成功率為 87%,這絕對比隨機猜測要好。
因此,我們建議使用此演算法來自動檢測偽造鈔票