新角度看雙線性池化，冗餘、突發性問題本質源於哪裡？| AAAI系列解讀 01

AIBigbull2050發表於2019-12-16

原文網址 : http://blog.itpub.net/69946223/viewspace-2668762/

2019-12-12 05:27:21

作者 | Zhi Gao

編輯 | 唐裡

本篇文章是AI 科技評論 AAAI 2020 論文系列解讀第 01 篇

本文對北京理工大學、阿里文娛摩酷實驗室合作的論文《RevisitingBilinear Pooling: A coding Perspective》進行解讀，該論文發表在AAAI 2020，本文首先證明了常用的特徵融合方法——雙線性池化是一種編碼-池化的形式。從編碼的角度，我們提出了分解的雙線性編碼來融合特徵。與原始的雙線性池化相比，我們的方法可以生成更加緊緻和判別的表示。

一、研究動機

在各種計算機視覺及人工智慧任務中，特徵融合是一個不可或缺的模組。例如，在圖1(a) 的人工智慧解說球賽的應用中，當觀眾提問“圖中穿黃色球衣的球員是誰？”時，模型需要將影像特徵和文字特徵融合成一個全域性表示，分類器對全域性表示進行分類，得到答案。對於圖1(b) 中的細粒度鳥類識別應用，通常的做法是首先對影像提取區域性特徵，之後將區域性特徵融合成全域性表示並進行分類。因此，特徵融合及其生成的全域性表示直接影響了模型在計算機視覺和人工智慧任務上的效能。

圖1 (a) 人工智慧解說球賽

圖1 (b) 細粒度鳥類識別

常見的特徵融合方法包括詞袋模型 (BoW)，Vector of Locally Aggregated Descriptor (VLAD) 模型和Fisher Vector (FV) 模型等。最近的研究顯示，雙線性池化 (BilinearPooling) 是一個更有效的特徵融合方法，它已經被廣泛應用於各種計算機視覺和機器學習任務 [1-4]。雙線性池化通過建模特徵的高階統計資訊來捕獲特徵之間的關係，進而生成具有表達力的全域性表示。然而，雙線性池化仍然存在兩個問題。第一，雙線性池化生成的表示含有大量的資訊冗餘（redundancy）。第二，雙線性池化具有突發性（burstiness）的問題，降低了表示的判別力。

在這篇論文中，作者首先證明了雙線性池化是一個基於相似性的編碼—池化框架。從這個新的角度，作者分析了雙線性池化中冗餘和突發性問題的本質，並提出了分解的雙線性編碼來生成緊湊且有判別力的表示。

二、方法

2.1雙線性池化的編碼—池化框架

雙線性池化方法[1]的形式是

其中是雙線性池化生成的矩陣表示，將Z向量化得到z作為全域性表示。在本文中，作者證明了雙線性池化是一個基於相似性的編碼—池化框架。全域性表示z可以寫成

其中，

B是字典，雙線性池化計算雙線性特徵新角度看雙線性池化，冗餘、突發性問題本質源於哪裡？| AAAI系列解讀 01 和字典元的內積相似度。由相似度構成的編碼通過一個求和池化 (SumPooling) 聚合成全域性表示z。

在上述的編碼—池化框架下，有三個的性質影響了雙線性池化的效能：

（1）雙線性特徵新角度看雙線性池化，冗餘、突發性問題本質源於哪裡？| AAAI系列解讀 01 是秩為1的矩陣，含有大量的資訊冗餘；

（2）字典B由輸入的雙線性特徵決定。因此對不同的輸入進行編碼所使用的字典不同；

（3）將雙線性池化用於多模態任務時，字典元新角度看雙線性池化，冗餘、突發性問題本質源於哪裡？| AAAI系列解讀 01 共線，這影響了表示z的判別力。

2.2 分解的雙線性編碼

從編碼的角度，作者提出了分解的雙線性編碼（FBC）融合特徵。作者將基於相似性的編碼替換成為稀疏編碼 (Sparse Coding)，啟用儘可能少的字典元並保持儘可能多的資訊。與原始的雙線性池化相比，分解的雙線性編碼學習一個全域性字典進行編碼，提高了z的判別力。

對高維的雙線性特徵直接編碼很容易引入大量的引數。為了避免這個問題，作者將字典元新角度看雙線性池化，冗餘、突發性問題本質源於哪裡？| AAAI系列解讀 01 進行分解，通過最小化如下目標函式獲得編碼

其中每一個字典元被分解成了兩個矩陣新角度看雙線性池化，冗餘、突發性問題本質源於哪裡？| AAAI系列解讀 01 和的乘積，矩陣分解的秩遠小於雙線性特徵的維度。通過LASSO演算法和引數替換策略，上式可以解得

其中新角度看雙線性池化，冗餘、突發性問題本質源於哪裡？| AAAI系列解讀 01 和是替換後的引數。作者使用最大值池化（Max Pooling）將獲得的編碼聚合成全域性表示z

分解的雙線性編碼與原始的雙線性池化相比，減少了大量的記憶體消耗。例如在視覺問答任務中，文字特徵的維度p=1024，視覺特徵的維度q=2048，答案有3000個類別。使用雙線性編碼需要儲存新角度看雙線性池化，冗餘、突發性問題本質源於哪裡？| AAAI系列解讀 01 個引數。如果首先計算雙線性特徵，並使用非分解的編碼方案，其中字典元的個數k=1000，則需要儲存的引數量為。與這兩種方案相比，分解的雙線性編碼不需要直接計算高維的雙線性特徵，且字典元的空間複雜度由新角度看雙線性池化，冗餘、突發性問題本質源於哪裡？| AAAI系列解讀 01 減少為。在具體實施中，矩陣分解的秩被設定為r=5，因此分解的雙線性編碼只需要儲存，約等於個引數，減少了模型的引數量。

分解的雙線性編碼可以比較靈活地應用到各種視覺任務中。例如，影像分類和視覺問答任務，網路結構如圖2(a) 和圖2(b)所示。分解的雙線性編碼的模組結構如圖2(c)所示。

三、實驗

3.1 效能比較

這篇論文在影像分類資料集DTD、 Indoor、 MINC、 CUB和視覺問答任務的VQA 2.0資料集上進行了實驗。實驗結果如表1和表2所示，分解的雙線性編碼與已有的基於高階統計資訊的方法進行了比較。實驗結果顯示，在這兩個任務中，分解的雙線性編碼可以生成緊湊且有判別力的全域性表示。

表1在影像分類資料集上各方法的比較結果

表2在視覺問答資料集上各方法的比較結果

3.2視覺化

在論文中，作者視覺化了雙線性池化和分解的雙線性編碼的特徵分佈，如圖3所示。與雙線性池化相比，分解的雙線性編碼產生的特徵更具有判別力，特徵分佈具有更小的類內散度和更大的類間散度。

四、總結

這篇論文證明了雙線性池化是一種基於相似性的編碼—池化框架，並從編碼的角度提出了一種分解的雙線性編碼方法。分解的雙線性編碼可以解決雙線性池化的冗餘問題並生成緊湊的表示。分解的雙線性編碼避免了對高維雙線性特徵的顯式計算，並且將所需引數的空間複雜度從降低為。同時，分解的雙線性編碼可以克服突發性問題。實驗顯示，與基於高階統計資訊的方法相比，分解的雙線性編碼生成的表示更有判別力，在影像分類和視覺問答任務上的效能超過了一些最新的方法。

參考文獻

[1] Lin,T.-Y.; RoyChowdhury, A.; and Maji, S. Bilinear cnn models for fine-grainedvisual recognition. In Proceedings of the IEEE International Conference onComputer Vision (ICCV), 1449– 1457, 2015.

[2] Gao, Y.;Beijbom, O.; Zhang, N.; and Darrell, T. Compact bilinear pooling. InProceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2016, 317–326.

[3] Fukui, A.;Park, D. H.; Yang, D.; Rohrbach, A.; Darrell, T.; and Rohrbach, M. Multimodal compactbilinear pooling for visual question answering and visual grounding. arXivpreprint arXiv:1606.0 1847.

[4] Li, Y.;Wang, N.; Liu, J.; and Hou, X. Factorized bilinear models for imagerecognition. In Proceedings of the IEEE International Conference on ComputerVision (ICCV), 2017, 20 79–2087.

https://www.toutiao.com/i6769296417207878157/

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/69946223/viewspace-2668762/，如需轉載，請註明出處，否則將追究法律責任。

詳解分散式系統本質：“分治”和“冗餘”
2018-11-16
分散式
《線性代數的本質》筆記（01-03）
2024-04-14
筆記
託管資料中心：考慮安全性、冗餘性與連線性等諸多事項
2018-07-31
演算法題——冗餘連線
2024-10-27
演算法
讀資料質量管理：資料可靠性與資料質量問題解決之道01資料質量
2024-11-12
新　餘　哪　裡　有　開　發　票
2020-11-23
線性篩質數題解 luoguP3383
2020-10-12
線性代數本質第10節
2020-11-28
埃氏篩/線性篩+質數與約數一本通題解
2024-12-10
Matlab解決線性規劃問題
2020-06-26
Matlab
冗餘資料一致性，到底如何保證？
2018-10-08
《線性代數的本質》筆記10
2024-05-06
筆記
《線性代數的本質》筆記（09）
2024-04-17
筆記
讀資料質量管理：資料可靠性與資料質量問題解決之道09資料可靠性
2024-11-20
AAAI 2025 | 用於韋伯區位問題的去奇異性次梯度方法
2024-12-30
AI梯度
CVPR 2019|PoolNet:基於池化技術的顯著性檢測論文解讀
2019-05-27
2-2. 線性池技術優化
2019-07-23
優化
基於TRE文章的非線性模型化線性方法
2023-10-04
模型
讀資料質量管理：資料可靠性與資料質量問題解決之道18資料發現
2024-11-29
PL7222線性雙節鋰電池充電晶片
2020-11-18
晶片
讀資料質量管理：資料可靠性與資料質量問題解決之道05資料標準化
2024-11-16
深入解讀HashMap執行緒安全性問題
2019-03-13
HashMap執行緒
Java併發程式設計Bug源頭：可見性、原子性和有序性問題
2019-04-11
Java程式設計
【筆試】陣列、線性表的本質區別
2018-06-08
筆試陣列
關於哪裡有開住宿費發票|問題解決周
2020-06-20
CSS 傾斜角度線性漸變
2018-07-20
CSS
從JDK原始碼角度看併發的原子性如何保證
2019-02-22
JDK原始碼
03_利用pytorch解決線性迴歸問題
2021-04-15
PyTorch
線性最小二乘問題
2020-10-03
matlab求解線性規劃問題
2024-08-10
Matlab
關於線性規劃非線性規劃與凸優化
2018-06-30
優化
01-考試解讀：論證有效性分析
2024-09-16
MySQL鎖問題分析-全域性讀鎖
2022-04-16
MySql
讀資料質量管理：資料可靠性與資料質量問題解決之道14普及資料質量
2024-11-25
讀資料質量管理：資料可靠性與資料質量問題解決之道12應對與緩解
2024-11-23
讀資料質量管理：資料可靠性與資料質量問題解決之道04收集與清洗
2024-11-15
讀資料質量管理：資料可靠性與資料質量問題解決之道15資料信任
2024-11-26
讀資料質量管理：資料可靠性與資料質量問題解決之道11根因分析
2024-11-22

新角度看雙線性池化，冗餘、突發性問題本質源於哪裡？| AAAI系列解讀 01

相關文章