遷移學習(SOT)《Cross-domain Activity Recognition via Substructural Optimal Transport》

加微信X466550探討發表於2023-03-07

論文資訊

論文標題:Cross-domain Activity Recognition via Substructural Optimal Transport
論文作者:Wang Lu, Yiqiang Chen, Jindong Wang, Xin Qin
論文來源:Neurocomputing
論文地址:download 
論文程式碼:download

1 背景

  使用從感測器收集到的原始訊號,學習有關人類活動的高階知識。應用於步態分析、手勢識別、睡眠階段檢測等領域

  跨域活動識別(CDAR):藉助輔助資料集,使用領域自適應的方式為無標籤的新活動資料集構建模型

  貝葉斯資訊準則(BIC):

    • 背景:引數估計問題採用似然函式作為目標函式,提高模型複雜度可提高模型精度,但會導致過擬合問題發生,希望在模型複雜度與模型對資料集描述能力之間尋求最佳平衡;
    • 公式:$\mathrm{BIC}=k \ln (n)-2 \ln (\widehat{L})$,其中後項為精度懲罰,$L$ 表示似然函式的值;前項為複雜度懲罰,$k$ 表示自由引數數量,$n$ 表示樣本數量;
    • 解釋:增加引數數量會增大似然函式,但是引數過多時,似然函式增速減緩,易產生過擬合現象,選取使BIC最小的自由引數數量即可達到較優狀態

  最優輸運問題(OT):

    • 機率向量:元素值在 $[0,1]$ 間,和為 $1$ 的陣列
    • 離散測度:將機率向量對應給某個數的函式

        $\alpha=\sum_{i=1}^{n} \mathbf{a}_{i} \delta_{x_{i}}$

    • 最優輸運問題:對於兩個測度,找到最優的對映方式 $P$,使下式成立($C$ 為代價矩陣): 

        $\mathrm{L}_{\mathbf{C}}(\mathbf{a}, \mathbf{b}) \stackrel{\text { def. }}{=} \min _{\mathbf{P} \in \mathbf{U}(\mathbf{a}, \mathbf{b})}\langle\mathbf{C}, \mathbf{P}\rangle \stackrel{\text { def. }}{=} \sum_{i, j} \mathbf{C}_{i, j} \mathbf{P}_{i, j}$

2 傳統方法簡介

  分類

    • 粗糙匹配:域級匹配/類級匹配/域級和類級匹配,透過學習域不變表示/類不變表示來匹配分佈;
    • 樣本級匹配:實現兩個域的成對樣本對齊;

  區域性性:兩個感測器訊號之間的細粒度相似度

  缺陷

    • 粗糙匹配:忽略活動資料的區域性資訊,可能導致不適應;
    • 樣本級匹配:易受噪聲點或異常值的影響,導致過度適應,學習區域性資訊時出現過擬合;匹配太多的點,耗時;

  實驗分析

    

    • 源域/目標域分別由高斯混合分別取樣得到,對應於兩個類三個不同的簇
    • 由於其中一個類對應兩個簇,使用粗糙匹配將忽略這種區域性資訊;

    • 資料攜帶噪音或擾動,直接對資料樣本進行匹配可能出現不匹配的情況;

    

    • 域級匹配完全忽略了域內資料結構;
    • 類級匹配需要稍微精細的對齊;
    • 樣本級方法容易受到異常值影響,導致過擬合,且耗時;

3 子結構域自適應(SSDA)

  子結構:描述資料的細粒度潛在分佈,可理解為類內部簇,對應於區域性資訊;

  優勢

    • 相較於粗略匹配,利用更細粒度的區域性性資訊(子結構),克服不適應問題;
    • 相較於樣本級匹配,避免噪聲與異常值的過分影響,防止過度適應問題;
    • 通用框架,可使用不同演算法完成定製;

  實現

    基於最優傳輸,提出子結構最優傳輸(SOT)方法

    步驟:

      • 透過聚類方法獲得內部子結構;
      • 透過部分最優傳輸方法給出源域的活動子結構權值;
      • 學習匹配兩個子結構上的機率分佈函式的運輸計劃;

    

  理論分析

    域級匹配物件 $p(x)$,類級匹配物件 $p(x|y)$,進一步將域劃分為更精細的子結構:

    $\begin{aligned}p(\mathbf{x}) & =\sum_\limits{y} p(\mathbf{x} \mid y) p(y) \\& =\sum_\limits{y}\left(\sum_\limits{o} p(\mathbf{x}, o \mid y)\right) p(y) \\& =\sum_\limits{y} \sum_\limits{o} p(\mathbf{x} \mid y, o) p(y, o) \text { (For source domain) } \\& =\sum_\limits{o} \sum_\limits{y} p(\mathbf{x} \mid y, o) p(y \mid o) p(o) \\& =\sum_\limits{o} p(\mathbf{x} \mid o) p(o) . \text { (For target domain) }\end{aligned}$

    

  由於類和子結構之間的關係:

    $p(y \mid o)=\left\{\begin{array}{ll}1 & o \text { is part of } y \\0 & o . w\end{array}\right.$

  統一源域和目標域的匹配物件:

    $p(\mathbf{x} \mid o)$

  子結構最優運輸(SOT)

  步驟一:子結構生成和表示

  $X$ 表示所有特徵資料,$X_{k} \sim N\left(\mu_{k}, \sigma_{k}\right)$ 表示第 $k$ 個聚類的資料,服從高斯混合分佈;可使用特徵資料 $X$ 藉助期望最大值(EM)演算法獲得高斯混合模型的引數。

  針對源域為保持標籤一致性,將其視為 $C$ 個高斯混合模型的混合分佈,每個模型對應一個類,針對每個模型分別完成聚類;針對目標域由於缺少標籤,直接對整個目標域完成聚類。

  聚類數量由貝葉斯資訊準則($BIC$)決定,選取使 $BIC$ 最小的自由引數 $k$ 的數量來決定聚類的數量。

  聚類演算法可自由定製;

  子結構表示:中心表示的 $S O T_{c}$ 表示法(只利用聚類中心,計算簡單,效率高)與分佈表示的 $S O T_{g}$ 表示法(利用更多聚類中心,計算時需近似)

  $\operatorname{SOT}_{c}$ 表示法

  目標域分佈(源域類似):

    $\mu_{c, t}=\sum_{i=1}^{k_{t}} w_{t, i} \delta_{\mathbf{z}_{t, i}}$

  其中 $z$ 表示聚類中心, $\delta_{z}$  表示聚類中心處的 Dirac 函 數, $\omega$  表示與聚類中心相關的機率質量,和為 $1$。

  使用歐式距離的平方作為兩個域間聚類中心的距離 度量: $\quad c\left(\mathbf{z}_{s, i}, \mathbf{z}_{t, j}\right)=\left\|\mathbf{z}_{s, i}-\mathbf{z}_{t, j}\right\|_{2}^{2}$ .

  $\boldsymbol{SOT}_{g}$  表示法

  目標域分佈(源域類似):

    $\mu_{g, t}=\sum_{i=1}^{k_{t}} w_{t, i} \mathcal{N}\left(\mathbf{z}_{t, i}, \boldsymbol{\sigma}_{t, i}\right)$

  使用高斯分佈代替聚類中心位置的 Dirac 函式 使用 Wasserstein 距離的平方作為兩個域間聚類中 心的距離度量:

    $c\left(\mathcal{N}\left(\mathbf{z}_{s, i}, \boldsymbol{\sigma}_{s, i}\right), \mathcal{N}\left(\mathbf{z}_{t, j}, \boldsymbol{\sigma}_{t, j}\right)\right)=W_{2}^{2}\left(\mathcal{N}\left(\mathbf{z}_{s, i}, \boldsymbol{\sigma}_{s, i}\right), \mathcal{N}\left(\mathbf{z}_{t, j}, \boldsymbol{\sigma}_{t, j}\right)\right)$

  距離度量用於計算最優輸運中的代價矩陣 $C$

  將協方差矩陣強制為對角矩陣,經過轉化的距離度量:

    $\begin{aligned}c\left(\mathcal{N}\left(\mathbf{z}_{s, i}, \sigma_{s, i}\right), \mathcal{N}\left(\mathbf{z}_{t, j}, \sigma_{t, j}\right)\right) & =\left\|\mathbf{z}_{s, i}-\mathbf{z}_{t, j}\right\|^{2}+\left\|\sqrt{\mathbf{r}_{s, i}}-\sqrt{\mathbf{r}_{t, j}}\right\|_{2}^{2} \\& =\left\|\left(\mathbf{z}_{s, i}, \sqrt{\mathbf{r}_{s, i}}\right)-\left(\mathbf{z}_{t, j}, \sqrt{\mathbf{r}_{t, j}}\right)\right\|_{2}^{2}\end{aligned}$

  其中 $r$ 表示簇的協方差矩陣的對角線,聚類中心 $z$ 和 $r$ 共同構成表示子結構的特徵。

  步驟二:計運算元結構權值(機率質量)

  對兩種子結構表示法進行統一表示:

    $P_{s}=\sum\limits_{s=1}^{k_{s}} w_{s, i} p_{s, i}$

  對資訊過少的目標域將 $\omega_{t, i}$ 固定為 $1 / k_{t}$ 自適應計算源域的子結構權值

  由於 $ \omega$ 本身的特性 (和為 $1$), 可看作機率分佈向量,利用部分最優運輸問題進行求解,求解最優運輸方式對應的最佳化目標:

    $\begin{array}{r}\boldsymbol{\pi}_{1}^{*}=\arg \min _{\pi}\langle\boldsymbol{\pi}, \mathbf{C}\rangle_{F}+\lambda_{1} H(\boldsymbol{\pi}) \\\text { s.t }\quad\quad\quad\quad\quad\quad \quad\boldsymbol{\pi}^{T} \mathbf{1}_{k_{s}}=\mathbf{w}_{t} \\\boldsymbol{\pi} \mathbf{1}_{k_{t}} \leq \mathbf{1}_{k_{s}} \\\mathbf{1}_{k_{t}}^{T} \boldsymbol{\pi}^{T} \mathbf{1}_{k_{s}}=1 .\end{array}$

  其中 $\pi$ 為兩個子結構機率分佈函式的朱合合矩陣(co upling matrix),$C$ 為代價矩陣,$\langle\cdot\rangle_{F}$ 為 Frobenius 點積,$\langle\pi, C\rangle_{F}$ 即為部分最優輸運總代價,$H(\pi)$ 為便於計算加入的正則化項,定義式

    $H(\boldsymbol{\pi})=\sum_{i j} \pi_{i j} \log \pi_{i j}$

  可保證約束條件後兩項必然成立, 因此最終最佳化目標:$\boldsymbol{\pi}_{1}^{*}=\arg \min _{\boldsymbol{\pi}}\langle\boldsymbol{\pi}, \mathbf{C}\rangle_{F}+\lambda_{1} H(\boldsymbol{\pi})$

    $\text { s.t } \quad \boldsymbol{\pi}^{T} \mathbf{1}_{k_{s}}=\mathbf{w}_{t} \text {. }$

  由於約束條件為的可行解集為凸集,易得問題的封閉形式,可使用拉格朗日方法解決問題:

    $L=\langle\boldsymbol{\pi}, \mathbf{C}\rangle_{F}+\lambda_{1} H(\boldsymbol{\pi})+\boldsymbol{\phi}^{T}\left(\boldsymbol{\pi}^{T} \mathbf{1}_{k_{s}}-\mathbf{w}_{t}\right)$

  步驟三:基於最優輸運(OT)的子結構對映

  子結構最優運輸 (SOT) 的總體最佳化目標:

    $\begin{array}\boldsymbol{\pi}^{*}&=\arg \min _{\boldsymbol{\pi}}\langle\boldsymbol{\pi}, \mathbf{C}\rangle_{F}+\lambda H(\boldsymbol{\pi})+\eta \Omega(\boldsymbol{\pi}) \\\text { s.t } & \boldsymbol{\pi}^{T} \mathbf{1}_{k_{s}}=\mathbf{w}_{t} \\& \boldsymbol{\pi} \mathbf{1}_{k_{t}}=\mathbf{w}_{s} .\end{array}$

  其中 $ \Omega(\pi)$ 為群稀疏正則化器,期望每個目標樣本只從具有相同標籤的源樣本接收質量。

  透過廣義條件梯度 (GCG) 求解最優輸運問題得到 最優耦合矩陣 $\pi^{*}$ 後, 可透過重心咉射計算出變換後的 $\boldsymbol{p}_{s, i}$ 的值:

    $\hat{\mathbf{p}}_{s, i}=\arg \min _{\mathbf{p}} \sum_{j} \pi^{*}(i, j) c\left(\mathbf{p}, \mathbf{p}_{t, j}\right)$

  當代價函式為歐式距樆時, 可表示為

    $\hat{\mathbf{P}}_{s}=\operatorname{diag}\left(\boldsymbol{\pi}^{*} \mathbf{1}_{k_{t}}\right)^{-1} \boldsymbol{\pi}^{*} \mathbf{P}_{t}$

  其中 $P_{t}$ 為目標表示,$\widehat{P_{s}}$ 為源對映表示
  使用計算出的 $ \widehat{P_{s}}$ 和標籤 $ Y_{s}$ 可建立模型以預測 $ P_{t}$ 對 應標籤,將預測出的標籤拭予目標域中屬於對應聚類的 資料即可最終完成目標域的標籤預測任務,即實現跨域活動識別任務。

4 實驗結果

  

https://zhuanlan.zhihu.com/p/356904023

https://www.cnblogs.com/liuzhen1995/p/14524932.html

 

相關文章