AAAI 2019 提前看:融合質量不理想資料

YuanyuanLi發表於2019-01-21

1. 介紹

選文理由:從 AAAI 釋出的 paper list 整體來看,令人喜悅的是靠近底層的問題研究和靠近工業界的產品研究都很多。前者保證了科研界的活躍度和今後行業發展的基礎,後者則保證了短期內一些研究落地的可能性。不過,很多專案仍然有研究空間,離落地-或者說成熟期-有一定距離。比如人臉識別的專案已經發展了很多年,應用該技術的產品也很多,但今年接收的論文仍然出現不少在人臉識別方向對演算法的改進和擴充套件的文章。說明 AI 整個行業雖然收到了公眾很大的關注,也在過去幾年中取得了長足的進展,從產品角度來看仍然有很長的路要走、可以走。

這篇文章筆者想討論的研究主要跟資料質量相關。此前騰訊 AI Lab 主任張潼返回學術界的訊息引起了對於學界和業界之間的鴻溝的思考。的確,學界和業界建立、解決問題和衡量解決方案的標準是完全不同的。在學術研究中,很多時候我們可以使用網上的開源資料進行模型訓練,所需要考慮的主要是模型架構等問題。而在產品開發中,一個專案的第一步往往是收集足夠、合適的資料。由於時間、成本和專案高度定製化等原因,資料收集往往是最困難的。比較常見的情況是資料獲取之後,我們仍然發現其中有相當一部分質量不理想,如影像的解析度太低、標籤錯誤或不清楚如何給標籤等。更糟的情況下我們甚至不確定該如何對資料的質量進行評估。而模型的訓練及後續工作必須在此基礎上開展。AAAI 給出的 paper list 中有一些針對不理想資料所開展的研究,筆者從其中選取了已經在網上公佈的論文進行本次討論。

2. 論文討論

1. Fully Convolutional Network with Multi-Step Reinforcement Learning for Image Processing

  • 連結:https://arxiv.org/abs/1811.04323

  • 作者個人主頁:https://www.hal.t.u-tokyo.ac.jp/~furuta/

本文一作 Ryosuke Furuta 是東京大學的一名博士生,主要研究方向是計算機視覺,影像識別,MRF 優化。

由於神經網路計算機視覺任務上的出色表現,許多影像處理工作也開始試圖使用神經網路,如影像降噪、影像增強。這即是本文試圖解決的問題,比較特別的是,不同於常見的使用卷積神經網路或 GAN 的方法,作者試圖通過建立畫素獎勵(pixelRL)來進行影像處理強化學習

文章以大名鼎鼎的 Asynchronous Advantage Actor-Critic (A3C) algorithm 演算法為基礎,A3C 演算法的一個核心設計是使用 parallel agents,自然的,在本文的情境下可以為每個畫素都分配一個 agent,agent 可以執行操作來更改畫素值。因此,令 I_i 作為有 N 個 pixel 的影像中的第 i 個畫素,其對應的 agent 的 policy 就可以寫作$\pi_i(a_i^{(t)}|s_i^{(t)})$,其中$a_i^{(t)}$和$s_i^{(t)}$分別對應第 i 個 agent 在時間 t 的 action 和 state。在時間 t,agents 可以通過在整張圖片上執行 action 合集 $a^{(t)} = ( a_1^{(t)}, a_2^{(t)}, ..., a_N^{(t)})$來更新 state $s^{(t+1)} = (s_1^{(t+1)}, s_2^{(t+1)}, ..., s_N^{(t+1)}) 和獲取獎勵 $r^{(t)} = ( r_1^{(t)}, r_2^{(t)}, ..., r_N^{(t)})$。agent 可以執行的 action 的集合 A 需要提前給定,而狀態$s_i^{(0)}$則可以輕鬆地設定為 I_i,即我們以原圖初始化模型。

pixelRL 的目標是習得最優策略(policy)$\pi = (\pi_1, ..., \pi_N)$以使得畫素的總預期獎勵最大化:

AAAI 2019 提前看:融合質量不理想資料

其中$\overline{r}^{(t)}$是在時間 t 所有 pixel 所獲得獎勵的均值。

pixelRL 的演算法很容易理解,但這樣設計帶來的難點主要是計算量,由於演算法的 agents 數量等同於影像的畫素數量,而目前一張照片的解析度至少也在 224*224*3 以上。也就是說 agents 的數量是在十萬級以上的,單獨訓練每一個 agent 將會造成計算困難。另外,這樣操作模型將只能在固定大小的影像上進行操作。為了應對這個問題,作者使用 FCN,通過引數共享來提高計算效率和保證圖片大小的靈活性。

同時,作者還提出了一種叫做 RMC(reward map convolution)的學習方法來利用卷積的特性提升 PixelRL 的表現。從直觀上理解,卷積操作是對某一畫素點和其鄰域的加權,即任何一個決策不僅僅需要考慮該畫素本身的值,同時還需要考慮感受野內的畫素點的值,這些畫素點的重要性則由權重給定。因此,在 one-step learning 的簡單情況下,價值網路(value network)的 gradient 可以計算為:

AAAI 2019 提前看:融合質量不理想資料

其中$w_{i-j}$是權重,代表了相鄰畫素在下一時間 t+1 的價值 V 對該畫素的重要性。這可以自然地被視為卷積核的權重並且可以在訓練過程中與價值網路和 policy 網路的引數一起更新。對於 2D 影像,僅僅需要將權重 w 設為 2D 的。這一思想也能夠很容易的擴充套件到 n-step learning。

值得一提的是,當 FCN 卷積核的感受野被設為 1x1 時,畫素的 agents 之間是互相獨立的,即 agent 的引數更新僅與該 pixel 有關,和 A3C 的演算法是等價的。也就是說,A3C 可以看作是本文提出的 pixelRL 在卷積核的感受野為 1x1 時的特殊情況。

作者分別在影像降噪、影像重建和色彩增強三個方面給出了實驗結果。由於 agent 所能執行的 action 需要提前限定,在每一個例子中,作者都給出了 action list 以及相應的 reward function。不過由於一些任務所能夠執行的 action 是相同的,在影像降噪和影像重建中作者都使用了以下 action list:

AAAI 2019 提前看:融合質量不理想資料

圖 1:影像降噪和影像重建中所使用的 action list [圖片來源:Furuta,R. et al. (2018). Fully Convolutional Network with Multi-Step Reinforcement Learning for Image Processing. AAAI.]

從作者給出的結果來看(圖二第二行),降噪(salt and pepper noise)效果是非常優秀的,訓練開始後很快就可以清晰辨認出影像內容。筆者認為 PixelRL 最大的優勢在於其執行的操作是可理解的。相比起來,在 CNN 的端到端訓練中我們僅能看到輸入影像和輸出結果,無法得知模型對影像都進行了什麼操作。而在 PixelRL 中,由於每個畫素都有一個 agent 從 action list 中選擇 action 執行,模型可以被很好的視覺化。圖二第一行給出了在每一個時間時每個 agent 所執行的操作。可以很清楚地看到在影像的人形雕塑內的畫素先整體都執行了 gaussian filer 和 median filter,隨後對每個畫素點進行微調。在人形雕塑外的畫素則是先整體執行了 box filter 隨後進行微調。即模型是先用比較強的 filter 移除噪聲,在此基礎上對結果進行改進(畫素值+-1)。這樣的邏輯對於人類也是合理的。

AAAI 2019 提前看:融合質量不理想資料

圖 2:PixelRL 影像降噪結果 [圖片來源:Furuta,R. et al. (2018). Fully Convolutional Network with Multi-Step Reinforcement Learning for Image Processing. AAAI.]

圖 3 給出了 PixelRL 在這一資料集上,以 PSNR [dB] 為標準,和全監督方法比較的結果。作者給出了僅使用 FCN 訓練 agents、使用 convGRU、使用所提出的 RMC 方法以及在資料集上進行 augmentation 的結果。可以看到使用 RMC 等方法的確能夠提升模型表現,但僅憑這一資料,我們無法判斷這種進步是否是顯著地。

當噪聲密度為 0.5 和 0.9 時,PixelRL 的表現優於 CNN,可能是因為高密度噪聲造成原始畫素資訊丟失,從而難以用 CNN 迴歸噪聲,因為原始畫素值的資訊丟失。而 PixelRL 在這種情況下在迭代操作中根據相鄰畫素預測畫素的真實值。但值得一提的是當噪聲密度比較低,CNN 方法仍然表現最優。從作者給出的在高斯噪聲降噪結果上看,這一結論仍然成立(CNN 的表現優於 PixelRL)。

AAAI 2019 提前看:融合質量不理想資料

圖 3:不同全監督方法在影像降噪結果上的對比,標準:PSNR [dB],噪聲:salt and pepper noise [圖片來源:Furuta,R. et al. (2018). Fully Convolutional Network with Multi-Step Reinforcement Learning for Image Processing. AAAI.]

影像重建中,作者使用對影像上隨機覆蓋一段文字的方法擾亂影像內容。從結果來看重建效果仍然是很優秀的,並且所執行的操作也被視覺化。筆者覺得比較可惜的一點是文字覆蓋在一片固定區域內影響的畫素值是比較少的,如果作者能夠給出對影像有嚴重缺失——比如右上角被油墨覆蓋導致一片區域完全不可辨認——的重建結果就好了。

AAAI 2019 提前看:融合質量不理想資料

圖 4:PixelRL 影像重建結果 [圖片來源:Furuta,R. et al. (2018). Fully Convolutional Network with Multi-Step Reinforcement Learning for Image Processing. AAAI.]

總體來看,文章的亮點在於對 A3C 演算法進行了擴充,使其能夠對每個畫素進行精確的修改,這使我們能夠得到在細節上更準確的結果,如邊緣更清晰、背景噪聲更少等。同時,卷積的使用兼顧了計算效率和影像的二維屬性,PixelRL 能夠考慮相鄰畫素的資訊並且其權重可以實時更新。模型所執行的操作的視覺化和可理解性十分吸引人。缺點在於由於 action list 需要提前確定,並且不同的任務中往往不能通用,需要具體問題具體分析並對獎勵函式做相應的修改,有損模型的通用性。與現有的全監督方法相比,模型似乎在影像內容扭曲比較嚴重的情況下優勢更明顯;當影像內容儲存的比較好時,模型僅取得了接近當前最優的表現。另外,從所給出的結果來看,我們無從得知 PixelRL 相對於其他方法的計算效率究竟如何,也無法判斷使用 RMC 等方法給模型表現帶來的提升是否是顯著地。筆者對 PixelRL 在現實應用上的意義持保留態度。

2. On the Persistence of Clustering Solutions and True Number of Clusters in a Dataset

  • 連結:https://arxiv.org/abs/1811.00102

  • 作者個人主頁:https://www.linkedin.com/in/amber-srivastava-41906739

本文一作 Amber Srivastava 現在是伊利諾伊大學厄巴納香檳分校機械工程系博士生,他的主要研究方向是優化理論,聚類演算法,計算機輔助設計,控制系統等。

聚類演算法是在各個領域都被廣泛運用的一種演算法,特別是學習過統計的同學對此一定非常熟悉,通常,在聚類演算法中需要給定聚類數量,即聚類數量是一個超引數。而由於在實際運用中這個值通常是不確定的,往往需要對不同聚類數量的擬合結果進行比較來確定最佳聚類數量,常用的標準有 BIC、AIC,X 均值等。本文作者提出了 persistence 的概念,作為衡量聚類結果的一個新的標準。

從作者的描述看來,這一概念的提出與解析度的概念有直接關係。因為類(cluster)的概念可以與檢視資料集的解析度比例相關聯。例如,兩個極端情況下,整個資料集可以被視為一個類,每個資料點自身也可以被視為一個類。這裡作者給出了一個例子,圖 5 中的資料是由 9 個高斯分佈生成的,分佈在三個超級叢集(super cluster)內。如果我們選擇的解析度非常低,如圖 5(a1),整個資料集中的任意兩個點不可區分,那麼整個資料集將被視為單個類。如果我們選擇半徑 r_1 的解析度比例,如圖 5(a2)所示,那麼每個超級叢集內的點是無法區分的,但三個超級叢集之間彼此可分。即在此解析度級別,資料集僅包含三個聚類。再進一步提高圖 5(a2)中的解析度範圍後,九個高斯分佈的資料點變得彼此不同,並且我們能夠識別資料集中的九個聚類

AAAI 2019 提前看:融合質量不理想資料

圖 5:對聚類與解析度之間關係的例證 [圖片來源:Srivastava, A. et al. (2018). On the Persistence of Clustering Solutions and True Number of Clusters in a Dataset. AAAI.]

很顯然,隨著解析度的變化,聚類結果也在改變。有一些聚類結果在不同的解析度下都是最優的,有一些則不是。如在圖 5(a1)中,三個超級聚類對於在很廣範圍的解析度下都是持久,如每個周圍的藍色環的厚度所示。另一方面,九個高斯分佈周圍的綠色環相對較薄,表明識別所有九個高斯簇的聚類解決方案相對較不持久。

作者認為在大範圍解析度下都存在的聚類結果是資料真實聚類數量的一種體現,從這裡出發,設計了名為 persistence 的標準使得其能衡量聚類結果相對與解析度的穩健性。

給定資料集$X = { x_i : x_i \in R^d, 1<= i <= N}$,試圖將其 N 個資料點聚類到 k 個類中。這一問題可以被視作一個 facility location problem(FTP),即試圖放置 facility $Y = { y_j : y_j \in R^d, 1<= j <= k}$使得資料點與其最近 facility 之間的累積距離最小——這一思想在經典的 k-means 演算法中也出現過。在 FLP 問題中,聚類問題程式設計求解以下優化問題:

AAAI 2019 提前看:融合質量不理想資料

其中$p_i$是已知的$x_i$的權重,常取 1/N,$d(x_i, y_i)$是點$x_i$和$y_j$之間的距離函式,常設定為尤拉距離。作者將$\min \limits_{1<=j<=k} d(x_i, y_j)$ 近似為$ - 1/ \beta log \sum_{j=1} ^k \exp^{-\beta d(x_i, y_j)}$,因此上文中的優化問題被近似成:

AAAI 2019 提前看:融合質量不理想資料

引數$\beta$決定了 F 對 D 的近似程度。當$\beta$接近無窮大,F 會無限趨近於 D;而當$\beta$接近於 0,F 則不能很好的近似 D。在 DA 演算法中,F 被稱為 free-energy function,β被稱為退火引數。給定$\beta$的情況下,F 的極小值可以通過對$Y_j$求偏導得到的:

AAAI 2019 提前看:融合質量不理想資料

到目前為止,本文的內容都是對現有理論的描述。有趣的是,作者隨後論證了退火引數β如何可以作為解析度的度量。

當$\beta$很小時,對資料集內的任意兩個點$x_1$,$x_2$,$\exp^{\beta d(x_1, y_j} \approx \exp^{\beta d(x_2, yj}$,即這兩點是無法區分的。因此,在低$\beta$值時,所建立的優化函式無法區分任意兩點,整個資料集將被視為單個叢集。隨著$\beta$值的增加,最初屬於同一群集兩個不同點,變得足夠可分。當$\beta$趨於無窮大,資料集的每一個點都與其他點很不相同,每一個點都將被視為一個單個的叢集。即,$\beta$是解析度的度量,$log \beta$則是解析度範圍的度量。

作者由此定義了 persistence 的概念——在$\beta$值的一定範圍內,最小化 F 的 Y 值應該保持不變。因此,有 k 個叢集的聚類結果的 persistence 可以寫作:

AAAI 2019 提前看:融合質量不理想資料

其中$\beta_k$是類的數量從 k-1 增加到 k 的解析度。資料集真正的類的數量$k_t$可以通過求得 v(k) 的最大值得到。$\beta_k$的在歐式距離情況下解析解,由於篇幅限制這裡不贅述,感興趣的讀者可以去論文中檢視。

圖 5(a3)和(b3)是在圖 5(a1)和(b1)計算 persistence 的一個例子,可以看到,對任何 k 不等於 3 和 9 的 k 值, $log \overline{\beta_3} - log \overline{\beta_2} >> log \overline{\beta_k} - log \overline{\beta_{k-1}}$ 和 $log \overline{\beta_9} - log \overline{\beta_8} >> log \overline{\beta_k} - log \overline{\beta_{k-1}}$都成立。另外,我們還可以觀察到在圖 5(a1)資料上,$log \overline{\beta_3} - log \overline{\beta_2} > $log \overline{\beta_9} - log \overline{\beta_8},說明選擇 3 個類比選擇 9 個類更加合適,而在圖 5(b1)資料上則相反。這與我們的觀察相符。

作者也給出了 persistence 在非線性可分資料下的計算方法——選擇一個 kernel function 將資料從低維投射到高維,由於顯式地定義 kernel function 是很困難的,這裡使用了在 svm 中也出現了的 kernel trick。文章中給出了 persistence 在 spherical clusters 等非線性可分資料上的結果。

圖 6 給出了所使用的測試資料。圖 6(a)是 4 個低方差高斯分佈,圖 6(b)是 4 個高方差高斯分佈,圖 6(c)和圖 6(d)是合成資料 u,真正的類分別為 8 和 15;圖 6(e)和圖 6(f)則是有 3 類的 spherical clusters。

AAAI 2019 提前看:融合質量不理想資料

圖 6:在不同資料上計算 persistence [圖片來源:Srivastava, A. et al. (2018). On the Persistence of Clustering Solutions and True Number of Clusters in a Dataset. AAAI.]

可以看到利用 persistence 能夠準確的預測真正的聚類數,作者在一系列真實資料上所得到的結果也印證了這一點。筆者認為這篇論文非常優秀,所提出的演算法從概念上易於理解,在理論上十分巧妙地將 DA 演算法的退火引數設計為解析度從而自然的得到 persistence 的計算公式。log 的使用可以帶來一定的計算優勢,特別是當資料集的大小 N 增加時。並且,利用 kernel trick 該演算法可以輕易擴充套件到非線性可分的情況。有一點遺憾的是如果能夠看到演算法在更高維和更多資料型別(如影像資料)上的表現就更好了。另外是由於$\beta_k$的求解涉及到海森函式,作者限定了距離函式為尤拉距離以得到具體的解析解,而沒有涉及更一般的解。

3. Partial Label Learning with Self-Guided Retraining

連結:http://www.ntu.edu.sg/home/boan/papers/AAAI19_Retraining.pdf

作者個人主頁:http://www.ntu.edu.sg/home/boan/

本文一作 Lei Feng 難以查詢,二作 Bo An 是南洋理工大學電腦科學與工程學院的副教授。曾在中國科學院計算技術研究所擔任副教授。他於馬薩諸塞大學阿默斯特分校獲得電腦科學博士學位。Bo An 教授的研究興趣包括人工智慧多智慧體系統博弈論,自動協商,資源分配和優化。

本文筆者想討論的第三種不理想資料的情況是資料標籤模糊。有時資料標籤無法獲取或標註過於昂貴而無法得到準確的標籤,用這樣的標籤進行模型訓練的學習過程叫做部分標籤學習(partial label (PL) learning)——每個訓練例項被分配一組候選標籤,其中只有一個是正確的。第三篇論文中,作者嘗試利用 self-traning 的思想處理部分標記的例子。但值得注意的是,在單純的 self-learning 中,早期的錯誤標籤預測可能會嚴重誤導模型;並且由於 self-learning 隱含了標籤之間是互斥的假設,生成的錯誤標籤會直接導致真正的標籤資訊完全沒有被使用。為了緩解這個問題,作者試圖引入一個 norm 來鼓勵模型實現以足夠高的置信度區分 ground-truth 標籤,同時儘可能多的利用候選標籤資訊。所介紹的演算法叫做 SURE(Self-gUided REtraining)。

基於此思想,我們的介紹從對問題建模開始。給定資料 $X=[x_1, ..., x_m]^T \in R^{mxn}$和相應的標籤集$Y = [y_1, ..., y_m]^T \in {0, 1}^{mxl}$,其中$y_{ij}=1$代表第 j 個標籤是第 i 個資料點的候選標籤之一,否則不是。由於 ground truth 標籤未知,其可以被視為潛變數(latent variable)並用置信矩陣(confidence matrix)$P = [p_1, p_m]^T 

\in [0, 1]^{mxl}$來表示一個標籤為 ground truth 標籤的置信度。$p_{ij}$代表對第 i 個資料點來說,第 j 個標籤是 ground truth 標籤的置信度。為實現候選標籤之間儘量互斥的關係但又避免過於絕對,作者引入了最大無限範數正則化(maximum infinity norm regularization),表述如下:

AAAI 2019 提前看:融合質量不理想資料

其中$[m] := {1, 2, ..., m}$,L 是所使用的損失函式,$\Omega$約束模型複雜度,即我們所熟悉的正則化,$\lamba, \beta$則是 tradeoff 引數。值得指出的是,上式中損失函式使用的不是候選標籤 Y 而是潛變數 P($L(x_i, p_i, f)$)。即隨著矩陣 P 的更新我們所指定的 ground truth 標籤也會更新,從而保證學習過程中的自我更正能夠被及時的用於模型訓練。

此外,在模型訓練初始時,損失函式的值往往比較大,因此會主導優化過程;僅在損失值落在一定範圍內時置信矩陣的值會對優化過程造成較大影響,因此這樣可以在一定程度上減輕 self-learning 中早期的錯誤標籤預測對模型的負面影響。同時,置信矩陣的重要性可以通過修改$\lambda$的值來修改。兩個約束則保證了僅候選標籤的置信度應該大於等於 0 並小於 1,非候選標籤的置信度應該嚴格為 0。並且置信度的加和應該為 1,使得我們能夠將其對待為概率。這樣設計的優勢是能夠隱含候選標籤之間應當互斥的假設——因為候選標籤的置信度加和應當為 1,當某一個候選標籤的置信度增加時,其他一個或多個候選標籤的置信度應該相應地減少。

此外,與傳統自我訓練的方式不同,通過以足夠高的置信度拾取標籤來執行確定性偽標記,通過折衷損失和最大無窮大規範來區分和擴大地面真實標籤的置信度。直觀地,僅在允許的損失範圍內,具有足夠高置信度的候選標籤可被識別為地面實況標籤。通過這種方式,通過訓練模型和聯合執行偽標記來減輕自我訓練的負面影響。另外,第一個約束有兩個作用:每個候選標籤的置信度應大於 0,但不大於 1; 每個非候選標籤的置信度應嚴格為 0。

為給出一個例項,作者選取了 square loss 作為損失函式、簡單線性迴歸作為模型、squared Frobenius norm 作為控制模型複雜的範數,然後描述了優化策略。這裡使用的僅僅是 alternating minimization,在迴歸模型中也經常使用,因此不過多贅述。值得一提的是,為了將簡單線性迴歸模型擴充套件到非線性的情況,作者也使用了帶 kernel trick 的 kernel function 將資料從低維投射到高維,和我們在上一篇文章中看到的一樣。

到此,SURE 演算法就設計完畢,完整過程如下:

AAAI 2019 提前看:融合質量不理想資料

優化過程結束後,對資料$\tilde{x}$預測的真實標籤$\tilde{y}$則為:

AAAI 2019 提前看:融合質量不理想資料

實驗方面,作者選用了 4 個 UCI 資料集(deter,ecoli,glass,usps),每個 UCI 資料集可用於生成帶有部分標籤(PL)的資料集。生成 PL 的過程由三個引數控制——p、r 和$\epsilon$。其中 p 控制生成 PL 的比例,r 控制假陽標籤(false positive)的數量,$\epsilon$控制某一個假陽標籤與 ground truth 標籤一起出現的概率。圖 6 給出了所使用的測試資料的描述性統計。可以看到,資料集一共有 4 種配置。其中配置 I 將會選擇某一特定標籤,其有概率$\epsilon$與 ground truth 標籤一起出現,其他標籤作為假陽標籤出現的概率則為$1 - \epsilon$。在配置(II),(III)和(IV)中,隨機選擇 r 個標籤作為假陽標籤,即候選標籤的數量為 r+1.

AAAI 2019 提前看:融合質量不理想資料

圖 7:UCI 測試資料的描述性統計 [圖片來源:Feng, L.; An, B. (2018). Partial Label Learning with Self-Guided Retraining. AAAI.]

圖 8 到圖 11 給出了 SURE 演算法和用於對比的演算法在 UCI 測試資料 4 種配置上的表現。可以看到,SURE 演算法在每一個測試集上的表現都是非常優秀的。單獨檢視某一個測試集的結果,SURE 的結果並沒有顯示出準確率上明顯的優勢,但其穩健性非常好,能夠在不同情況下都保持較高的準確率

AAAI 2019 提前看:融合質量不理想資料圖 8:在 UCI 測試資料配置 I 上的表現,$\epsilon$取值範圍從 0.1 到 0.7(p = 1,r = 1)。 [圖片來源:Feng, L.; An, B. (2018). Partial Label Learning with Self-Guided Retraining. AAAI.]

AAAI 2019 提前看:融合質量不理想資料圖 9:在 UCI 測試資料配置 I 上的表現,p 取值範圍從 0.1 到 0.7(r = 1)。 [圖片來源:Feng, L.; An, B. (2018). Partial Label Learning with Self-Guided Retraining. AAAI.]

AAAI 2019 提前看:融合質量不理想資料圖 10:在 UCI 測試資料配置 I 上的表現,p 取值範圍從 0.1 到 0.7(r = 2)。 [圖片來源:Feng, L.; An, B. (2018). Partial Label Learning with Self-Guided Retraining. AAAI.]

AAAI 2019 提前看:融合質量不理想資料圖 11:在 UCI 測試資料配置 I 上的表現,p 取值範圍從 0.1 到 0.7(r = 3)。 [圖片來源:Feng, L.; An, B. (2018). Partial Label Learning with Self-Guided Retraining. AAAI.]

筆者個人很喜歡這篇論文,和上一篇論文一樣,演算法的設計十分精巧。範數的引入能夠在保證靈活性的前提下取得高置信度。此外,該方法的擴充套件性很好,由於關鍵思路僅僅是對置信度增加懲罰項,對函式的限制不大。

3. 小結

可以很明顯看到,筆者本次介紹的文章均是以理論為基礎,有較多的公式推導——但並不難以理解——並引入了很多經典演算法,比如利用 feature mapping 實現從線性到非線性的擴充套件、alternating minimization 來實現高效地引數更新等。論文中所提出的演算法大多也是對現有模型進行一些修改,創新也並非一蹴而就。模型的基石是已經存在幾十年、上百年,在上學時作為基礎所學習的理論。但在今天通過對這些理論的擴充套件、放鬆和結合,結果仍然令人驚豔,同時還能夠保證簡潔性。在筆者所處的工業界內也是一樣,許多市場上的產品使用的仍然是最基本的方法,往往,模型的精度達到一定水平後-就-準確率就不再是第一目標,穩健性、可解釋性、可控性等因素則會變得更加重要。

當然,迴歸到本文的主題,對於質量不理想的資料,筆者的個人經驗是不論使用如何精巧的模型,所得到的訓練結果往往還是不如使用簡單模型但資料質量好的訓練結果。因此,亡羊補牢雖不失為一個策略,但在有可能的情況下通過精心設計並嚴格執行計劃來獲得好的訓練資料,仍然是最好的選擇。

YUANYUAN LI:幾次轉行,本科國際貿易,研究生轉向統計,畢業後留在比利時,選擇從事農用機械研發工作,主要負責影像處理,實現計算機視覺演算法的落地。欣賞一切簡單、優雅但有效地演算法,試圖在深度學習的簇擁者和懷疑者之間找到一個平衡。我追求生活的寬度,這也是為什麼在工作之外,我也是機器之心的一名兼職分析師。希望在這裡通過分享自己的拙見、通過思想的碰撞可以拓寬自己的思路。

機器之心個人主頁:https://www.jiqizhixin.com/users/a761197d-cdb9-4c9a-aa48-7a13fcb71f83

相關文章