KDD 2019論文解讀:多分類下的模型可解釋性
日前,由阿里巴巴研究型實習生張雪舟、螞蟻金服高階演算法專家婁寅撰寫的論文《Axiomatic Interpretability for Multiclass Additive Models》入選全球資料探勘頂級會議KDD 2019,本文為該論文的詳細解讀。論文地址:
前言
模型可解釋性是機器學習研究中的一個重要課題。這裡我們研究的物件是廣義加性模型(Generalized Additive Models,簡稱GAMs)。GAM在醫療等對解釋性要求較高的場景下已經有了廣泛的應用 [1]。
GAM作為一個完全白盒化的模型提供了比(廣義)線性模型(GLMs)更好的模型表達能力:GAM能對單特徵和雙特徵交叉(pairwise interaction)做非線性的變換。帶pairwiseinteraction的GAM往往被稱為GA2M。以下是GA2
M模型的數學表達:
其中g是linkfunction,fi和fij被稱為shape function,分別為模型所需要學習的特徵變換函式。由於fi和fij都是低緯度的函式,模型中每一個函式都可以被視覺化出來,從而方便建模人員瞭解每個特徵是如何影響最終預測的。例如在[1]中,年齡對肺炎致死率的影響就可以用一張圖來表示。
由於GAM對特徵做了非線性變換,這使得GAM往往能提供比線性模型更強大的建模能力。在一些研究中GAM的效果往往能逼近Boosted Trees或者Random Forests [1, 2, 3]。
視覺化影像與模型的預測機制之間的矛盾
本文首先討論了在多分類問題的下,傳統可解釋性演算法(例如邏輯迴歸,SVM)的視覺化影像與模型的預測機制之間存在的矛盾。如果直接透過這些未經加工的視覺化影像理解模型預測機制,有可能造成建模人員對模型預測機制的錯誤解讀。如圖1所示,左邊是在一個多分類GAM下age的shape function。粗看之下這張圖表示了Diabetes I的風險隨年齡增長而增加。然而當我們看實際的預測機率(右圖),Diabetes I的風險其實應該是隨著年齡的增加而降低的。
為了解決這一問題,本文提出了一種後期處理方法(AdditivePost-Processing for Interpretability, API),能夠對用任意演算法訓練的GAM進行處理,使得在 不改變模型預測的前提下,處理後模型的視覺化影像與模型的預測機制相符,由此讓建模人員可以安全的透過傳統的視覺化方法來觀察和理解模型的預測機制,而不會被錯誤的視覺資訊誤導。
多分類下的模型可解釋性
API的設計理念來源於兩個在長期使用GAM的過程中得到的可解釋性定理(Axioms of Interpretability)。我們希望一個GAM模型具備如下兩個性質:
- 任意一個shape function fik (對應feature i和class k)的形狀,必須要和真實的預測機率Pk的形狀相符,即我們不希望看到一個shape function是遞增的,但實際上預測機率是遞減的情況。
- Shape function應該避免任何不必要的不平滑。不平滑的shape function會讓建模人員難以理解模型的預測趨勢。
現在我們知道我們想要的模型需要滿足什麼性質,那麼如何找到這樣的模型,而不改變原模型的預測呢?這裡就要用到一個重要的softmax函式的性質。
對於一個softmax函式,如果在每一個輸入項中加上同一個函式,由此得來的模型是和原模型 完全等價的。也就是說,這兩個模型在任何情況下的預測結果都相同。基於這樣的性質,我們就可以設計一個g 函式,讓加入g函式之後的模型滿足我們想要的性質。
我們在文章中從數學上證明,以上這個最佳化問題永遠有 唯一的全域性最優解,並且我們給出了這個解的 解析形式。我們基於此設計的後期處理方法幾乎不消耗任何計算資源,卻可以把具有誤導性的GAM模型轉化成可以放心觀察的可解釋模型。
在一個預測嬰兒死因的資料上(12類分類問題),我們採用API對shapefunction做了處理,從而使得他們能真實地反應預測機率變化的趨勢。這裡可以看到,在採用API之前,模型視覺化提供的資訊是所有死因都和嬰兒體重和Apgar值成負相關趨勢。但是在採用API之後我們發現,實際上不同的死因與嬰兒體重和Apgar值的關係
是不一樣的:其中一些死因是正相關,一些死因是負相關,另外一些在嬰兒體重和Apgar值達到某個中間值得時候死亡率達到最高。API使得醫療人員能夠透過模型得到更準確的預測資訊。
總結
在很多mission-critical的場景下(醫療,金融等),模型可解釋性往往比模型自身的準確性更重要。廣義加性模型作為一個高精確度又完全白盒化的模型,預期能在更多的應用場景上落地。
Reference
[1] Caruana et al. Intelligible Modelsfor HealthCare: Predicting Pneumonia Risk and Hospital 30-day Readmission. In KDD2015.
[2] Lou et al. Intelligible Models for Classification and Regression. In KDD2012.
[3] Lou et al. Accurate Intelligible Models withPairwise Interactions. In KDD 2013.
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69904796/viewspace-2655222/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 談談機器學習模型的可解釋性機器學習模型
- KDD 18 & AAAI 19 | 異構資訊網路表示學習論文解讀AI
- 深度學習模型可解釋性初探深度學習模型
- 論文解讀丨表格識別模型TableMaster模型AST
- 機器學習模型可解釋性的詳盡介紹機器學習模型
- SysML 2019論文解讀:推理優化優化
- AlexNet論文解讀
- KDD 2018最佳論文解讀 | 圖神經網路對抗攻擊神經網路
- 可解釋性終極追問,什麼才是第一性解釋?20篇CCF-A+ICLR論文給你答案ICLR
- 解讀NeurIPS2019最好的機器學習論文機器學習
- 近期有哪些值得讀的QA論文?| 專題論文解讀
- 論文分享:用於模型解釋的對抗不忠學習模型
- 『論文精讀』Vision Transformer(VIT)論文解讀ORM
- SysML 2019論文解讀:推理最佳化
- 不容錯過!ACL 2019論文解讀合集!
- Attention模型方法綜述 | 多篇經典論文解讀模型
- 論文解讀(LLE)《Nonlinear Dimensionality Reduction by Locally Linear Embedding》以及論文通俗解釋
- SysML 2019論文解讀:影片分析系統的提升
- 相信你的模型:初探機器學習可解釋性研究進展模型機器學習
- PointNet系列論文解讀
- DeepSort論文解讀
- EfficientNet & EfficientDet 論文解讀
- NCSU&阿里巴巴論文:可解釋的R-CNN阿里CNN
- SysML 2019論文解讀:視訊分析系統的提升
- AAAI 2020 論文解讀:關於生成模型的那些事AI模型
- 深度學習的可解釋性研究(一):讓模型「說人話」深度學習模型
- 基於spark2.0文字分詞+多分類模型Spark分詞模型
- 論文解讀(DGI)《DEEP GRAPH INFOMAX》
- 論文解讀《Cauchy Graph Embedding》
- Face R-CNN論文解讀CNN
- 深度學習-最新論文解釋深度學習
- CVPR 2019|PoolNet:基於池化技術的顯著性檢測 論文解讀
- NLP論文解讀:無需模板且高效的語言微調模型(上)模型
- 資料科學的下一個「超能力」:模型可解釋性資料科學模型
- 7 Papers | KDD2019最佳論文;AutoML SOTA 綜述TOML
- Backbone 網路-DenseNet 論文解讀SENet
- Backbone 網路-ResNet 論文解讀
- AAAI/CVPR論文詳解 | 萬字長文了解可解釋AI工具及技術的最新進展AI