遷移學習中如何利用權值調整資料分佈?DATL、L2TL兩大方法解析

wujiy發表於2019-11-04

深度神經網路的應用顯著改善了各種資料探勘和計算機視覺演算法的效能,因此廣泛應用於各類機器學習場景中。然而,深度神經網路方法依賴於大量的標記資料來訓練深度學習模型,在實際應用中,獲取足夠的標記資料往往既昂貴又耗時。因此,一個自然的想法是利用現有資料集(即源域)中豐富的標記樣本,輔助在要學習的資料集(即目標域)中的學習。解決這類跨領域學習問題的一種有效方法就是遷移學習:首先在一個大的標記源資料集(如 ImageNet)上訓練模型,然後在目標資料集上進行模型調整更新,從而實現將已訓練好的模型引數遷移到新的模型來幫助新模型訓練。

基於深度神經網路的遷移學習主要有三種方式:一是遷移學習(Transfer Learning),重新訓練全連線層,其他預訓練模型的卷積層不變;二是特徵向量提取(Feature Vector Extraction),利用預訓練模型的卷積層提取源和目標資料集的特徵向量,之後訓練目標域中的全連線網路;三是微調(Fine-tune),重新學習分類層的引數,而其餘網路層引數則沿用預訓練模型的初始化值。

研究人員發現,僅靠改進遷移學習的方式(如上述三種遷移學習方式)並不能進一步降低目標域中模型的損失值,而選擇改進用作模型預訓練的源資料集的豐富程度則是一種有效的方法。源資料集的豐富程度並不僅由資料集中資料量的大小決定,而同時取決於用於預訓練的資料集是否能夠有效捕獲到與目標域中資料集相似的差異性特徵(因素)。前期的方法主要是通過不同的度量方法找到源資料集與目標資料集中的相似樣本資料,例如 [1] 使用濾波器組響應中的特徵來選擇源資料集中的最近鄰樣本,與使用整個源資料集相比,該方法具備更好的效能。[2] 利用土方運距(Earth Mover』s Distance,EMD)對源資料集和目標資料集之間的區域相似性進行量化計算,之後利用一個簡單的貪婪子集生成選擇準則提高目標測試集的效能。然而上述方法只是找到相似的樣本資料,無法有效捕獲目標資料集中的變化判別因素,因此遷移學習的效果改進有限。這種微調相當於對遷移學習的前兩種步驟的改進,進一步提升了遷移學習的效能,因此本文探討的是改善微調方式的遷移學習。

Ngiam et al. 提出了一種利用權值捕獲源域和目標域中相似資訊從而有效調整資料分佈的方法,即基於目標資料集的重要權值域自適應遷移學習方法(Domain Adaptive Transfer Learning,DATL)[1]。DATL 利用概率形態識別源資料集中能夠有效捕獲目標資料集中變化判別因素的樣本資料,使用 JFT 和 ImageNet 資料集作為源訓練資料,並考慮一系列用於微調的目標資料集。在微調過程中,對網路中的分類層進行隨機初始化訓練。在這項工作的基礎上,Zhu et al. 提出了共享權值的概念,即對源和目標任務模型之間共享權值聯合優化的學習框架(Learning to Transfer Learn,L2TL)[2],其中關於共享權值的計算是利用基於目標資料集的效能度量矩陣的強化學習模組(RL)實現的,從而保證自適應輸出每個源資料集中類別的權值。L2TL 基於目標資料集中的測試效能自適應的推斷域相似度。本文對 DATL 和 L2TL 進行詳細的分析,目的是探討在遷移學習中利用權值調整資料分佈的有效性,以及計算權值的不同方式對遷移學習效果、計算成本等的影響。

1、Domain Adaptive Transfer Learning with Specialist Models

原文地址:https://arxiv.org/pdf/1811.07056.pdf

方法分析

DATL 使用 JFT 和 ImageNet 資料集作為源預訓練資料,不在源資料集和目標資料集之間執行任何標籤對齊處理。而是利用資料集之間的標籤產生的權值進行調整。在微調過程中,對神經網路中的分類層進行隨機初始化訓練。首先考慮一個簡化的設定,即源資料集和目標資料集位於相同的畫素 x 和標籤 y 值集上。預訓練階段,在源域中優化引數θ以最小化損失函式:

(1)

遷移學習中如何利用權值調整資料分佈?DATL、L2TL兩大方法解析

其中 Ds 表示源資料集,L(f_θ(x),y) 為模型 f_θ(y) 的預測與標籤真值 y 之間的交叉熵損失函式。源資料集 Ds 中的資料分佈與目標資料集 Dt 中的分佈可能不同,通過加大與目標資料集最相關的樣本的權值來解決這種問題。目標資料集 Dt 中的損失函式為:

(2)

遷移學習中如何利用權值調整資料分佈?DATL、L2TL兩大方法解析

其中 Ps、Pt 分別表示源和目標資料集的概率分佈。結合以上兩個公式,重新計算(2)包含源資料集 Ds 的損失函式如下:

(3)

遷移學習中如何利用權值調整資料分佈?DATL、L2TL兩大方法解析

接下來,假設 Ps(x|y) 約等於 Pt(x|y),即在源資料集中給定特定標籤的樣本分佈與目標資料集的近似分佈是相同的,(3)可簡化為:

遷移學習中如何利用權值調整資料分佈?DATL、L2TL兩大方法解析

其中 Pt(y)/Ps(y) 為我們需要的權值。

為了使 DATL 在實踐中適用,需要對簡化設定(即源資料集和目標資料集共享相同的標籤空間)進行放鬆假設,放鬆假設的處理過程具體為:「在真實的應用場景中,源資料集和目標資料集一般具有不同的標籤集,解決方案是 Pt(y) 和 Ps(y) 的估計都在源域中進行,而不再基於目標域估計 Pt(y)。通過將標籤出現的次數除以源資料集的樣本總數計算分母 Ps(y)。為了估計 Pt(y),則使用一個分類器來計算來自源資料集的標籤在來自目標資料集的樣本上的概率。」

完整的 DATL 方法示例見圖 1。為了計算重要性權值 Pt(y)/Ps(y),首先使用在整個 JFT 資料集上預訓練的影像模型來評估來自目標資料集的影像。對於每一幅影像,能夠得到其對 JFT 中 18291 個類的預測。對這些預測進行平均化處理後得到 Pt(y)。通過將標籤在源預訓練資料集中出現的次數除以源預訓練資料集中的樣本總數,直接從源預訓練資料集中估計 Ps(y)。因此,權值 Pt(y)/Ps(y) 表示源預訓練資料集中給定標籤的重要程度。使用這些重要性權值在整個 JFT 資料集上訓練生成預訓練模型,然後在目標資料集上進行微調。

遷移學習中如何利用權值調整資料分佈?DATL、L2TL兩大方法解析

圖 1. DATL 方法完整過程

相關文章