《learn to count everything》論文閱讀、實驗記錄

七龙猪發表於2024-05-01

原文網址 : https://www.cnblogs.com/7dragonpig/p/18153007

《learn to count everything》論文閱讀

模式識別這門課最後選了這篇論文匯報，記錄一下吧。

參考資料：

【論文解讀】CVPR2021 | FamNet：密集場景計數統計實戰 Learning To Count Everything（影像處理|計算機視覺|人工智慧）_嗶哩嗶哩_bilibili

CVPR 2021 | FamNet | Learning To Count Everything - 知乎 (zhihu.com)

本篇論文完成了小樣本新類別密集計數任務，給出少量的樣本標籤即可，是一種半監督的任務。Few-Shot：只給出少量的標籤，讓模型自己學習，讓模型的通用性更強。在本文中，few-shot實現的是：輸入為一張影像以及一些標註資訊，這些標註資訊是少量的目標物體樣例，使用方框標註。輸出是一張“密度圖”，預測和原圖同位置的地方是否有目標。最後對密度圖做一個求和操作。

1.本文創新點：

將計數看成是few-shot迴歸任務。
構建了一種新的網路結構FamNet 少樣本適應和匹配性網路。
在測試時採用了一種新的自適應方案，進一步提高了FamNet的效能。
提供了一個新的資料集Few-Shot Counting-147（FSC-147）。

2.主要結構

Feature Extraction Module：特徵提取模組。使用ImageNet預訓練的網路進行特徵提取。多由預先訓練好的ResNet-50骨幹網的前四個塊組成（這些塊的引數在訓練期間被凍結），透過第三和第四塊的卷積特徵圖來表示一幅影像。
ROI Pool ：只針對關注區域的特徵找到特徵圖。把樣例的特徵圖做上取樣或者下采樣，然後進行拼接。
Feature Correlation Layer：特徵相關層。為了使密度預測模組對視覺類別不可知，不直接使用從特徵提取模組獲得的特徵進行密度預測。只使用不同scale的樣例特徵和整個影像特徵之間的相關性獲得相關圖，作為密度預測模組的輸入。
Density Prediction Module：密度預測模組。由五個卷積塊和放置在第一、第二和第三卷積層之後的三個上取樣層組成。最後一層是 1×1 卷積層預測 2D 密度圖。

3.訓練（訓練集下載見github地址，不大）

FSC-147。由6135張影像組成，涉及147個物件類別。資料集中的物件的大小和計數差異很大，7-3731個物件，平均每幅影像的計數為56個物件。

為了生成目標密度圖，使用具有自適應視窗大小的高斯平滑法。首先，使用點註釋來估計物體的大小。點註釋圖每個點都位於物體的近似中心，計算每個點與其最近的鄰居的距離，對影像中所有的點進行平均，平均距離被用作生成目標密度圖的高斯視窗的大小。高斯的標準偏差被設定為視窗大小的四分之一。為了訓練FamNet，將預測的密度圖和GT密度圖之間的平均平方誤差降到最低。使用Adam最佳化器，學習率為1e-5，批次大小為1。每張圖片的大小調整為固定的384高度，寬度也相應調整保持原始縱橫比。