清華、上交等聯合發表:關於“分片線性神經網路”最新綜述!

龍騰AI技術發表於2022-10-09

清華、上交等聯合發表:關於“分片線性神經網路”最新綜述!

連續分片線性函式是一類具備區域性線性特性和全域性非線性特性的連續函式。具有特定表示模型的連續分片線性函式能夠對緊集上的任意連續函式進行全域性逼近。

其本質是利用有限數量的線性函式對複雜的非線性系統進行精確建模,即在保持區域性線性特性的同時,使整體建模表現出非線性特性。

分片線性神經網路(PieceWise Linear Neural Networks,PWLNN)是利用連續分片線性函式對非線性系統建模的主要方法之一。

當合理配置神經網路網路結構及神經元中的啟用函式(如ReLU等分片線性對映函式),可以得到一類PWLNN,並以此為基礎,靈活利用常見的神經網路模型引數最佳化演算法和各類成熟的計算平臺,實現對複雜非線性系統或資料集進行黑箱建模。

在過去的幾十年裡,PWLNN已經從淺層架構發展到深層架構,並在不同領域取得了廣泛的應用成果,包括電路分析、動態系統識別、數學規劃等。近年來,深度PWLNN在大規模資料處理方面取得的巨大成功尤為矚目。

清華、上交等聯合發表:關於“分片線性神經網路”最新綜述!

圖1 二維連續分片線性函式示例[2]

最近由清華大學自動化系、比利時荷語魯汶大學電子系、上海交通大學自動化系以及之江實驗室的研究人員共同完成的一篇發表在《自然-綜述》系列期刊上的綜述論文,系統地介紹了分片線性神經網路表示模型(包括淺層及深度網路)、最佳化演算法、理論分析以及應用。

清華、上交等聯合發表:關於“分片線性神經網路”最新綜述!

清華大學自動化系李力教授及王書寧教授指導的博士畢業生陶清華(現任比利時荷語魯汶大學博士後)、黃曉霖(現任上海交通大學副教授)為論文的通訊作者,其中陶清華博士為論文第一作者,其他共同作者包括王書寧教授、比利時荷語魯汶大學Johan A.K. Suykens教授及王書寧教授指導的博士畢業生襲嚮明(現任之江實驗室助理研究員)。

清華大學自動化系王書寧教授團隊近二十年來在分片線性神經網路方向開展了系統的研究,取得了一些重要成果,顯著推進了該領域的發展。

目前,團隊成員遍佈於國內外的研究機構,繼續從事分片線性神經網路及其相關科研工作,共同促進相關理論的發展和成果轉化。

Nature Reviews Methods Primers於2021年1月創刊,致力於加強跨學科的協作,出版多領域前沿方法或技術的綜述文章,旨在為處於不同職業階段或具有不同研究背景/不同知識儲備的跨學科研究者和實踐者提供瞭解、評估和應用前沿方法和技術的資訊交流平臺。

基本背景及發展歷程

為了將PWLNN更好地應用於資料科學,學者們長期以來一直圍繞兩個基本問題展開研究,即表示模型及其引數學習演算法,其中前者旨在建立具備分片線性特性和充分的逼近能力的數學模型[2-11],後者則研究適應大規模資料的表示模型引數準確而快速的學習演算法[9-22],從而使PWLNN能夠準確描述給定資料或待研究系統物件的特性。

清華、上交等聯合發表:關於“分片線性神經網路”最新綜述!

圖3. 模型部分概況[1]

1977年,著名電路系統專家蔡少棠(Leon O. Chua)等在電路系統分析中首次成功提出了緊湊的PWLNN表示法,即典範表示模型[3]。

1993年,著名統計和機器學習專家Leo Breiman開創了另一類基於鉸鏈的模型表示,即連結超平面模型[4],其與當今深度神經網路中最流行的啟用函式之一,即線性整流單元(Rectified Linear Units, ReLU),極為類似。

隨後王書寧教授將其推廣至具有全域性表示能力的廣義連結超平面模型[8]。

隨著典範表示模型和連結超平面模型的提出,PWLNN相關研究也得到快速發展,其中大部分工作圍繞淺層網路結構和引數學習方法而展開。

2010年,Nair和Hinton提出的ReLU21大幅度提高了深度學習在各種基於資料驅動的任務中的效果,使得具有深層網路結構的PWLNN得到更加廣泛的關注。

PWLNN表示模型及其學習方法

如上圖3所示,PWLNN可分為兩大類,即淺層的PWLNN(如圖3中下半部分左右兩圖所示)和深層的PWLNN(如圖2中上半部分圖)。

淺層的PWLNN主要分為兩大類,即基函式組合模型及格模型。

其中前者透過對具有不同結構、引數和特性的基函式進行組合,如圖4(a)(b)所示,實現能夠滿足不同場景的具有不同逼近能力、表示能力、引數及結構的辨識難易程度的PWLNN

後者則透過顯式列舉可行域的各個子區域所對應的線性表達,並利用min-max(或max-min)的巢狀形式,實現PWLNN的緊湊表示,如圖4(c)所示。

格模型中線性子區域的顯式表達特性在一些特定應用場景下尤為重要,例如模型預測控制[25,31]。

清華、上交等聯合發表:關於“分片線性神經網路”最新綜述!

圖4. (a) 二維連結超平面模型基函式示意圖; (b) 二維單純形模型基函式示意圖;(c) 一維格模型示例圖 (含5個子區域線性表示式)

對比而言,由於網路深度的限制,淺層的PWLNN通常透過篩選更為有效的神經元,而逐漸增加網路寬度的方式,提升模型靈活性,然而在反覆搜尋有效神經元的過程往往會犧牲演算法效率,同時缺少對全域性資訊的考慮。

與淺層PWLNN更加側重於神經元連線方式的特點不同,深層的PWLNN更加側重於在深度神經網路中引入形式簡單的分片線性函式作為啟用單元,從而是深層PWLNN整體表現為逐層巢狀的分片線性對映函式。

深層的PWLNN更偏好於增加網路深度[23],這種方式的優勢在於能夠更加高效而靈活地實現分片線性子區域的劃分,並使模型具有更好的靈活性,例如圖5中的典型全連線深層PWLNN模型結構示意。

清華、上交等聯合發表:關於“分片線性神經網路”最新綜述!

圖5. 一般PWLNN模型結構示意圖

透過逐層的分片線性函式對映,定義域會被劃分為更多的線性子區域,如圖6所示。

圖6中(b)、(c)、(d)為(a)所示網路中第一層隱含層、第二隱含層、第三隱含層中神經元輸出對應的定義域劃分,可見隨著網路深度的巢狀網路定義域被劃分成更多的子區域,即神經元輸出由更多不同片線性子函式構成,因此可以得到更為靈活的PWLNN。

又例如圖7中示例所示,隨著網路層數的加深,定義域可被靈活的劃分為眾多具有線性特性的子區域,從而可以更為精確的地對資料進行擬合,實現強大的逼近能力。

清華、上交等聯合發表:關於“分片線性神經網路”最新綜述!

圖6. 二維簡單PWLNN(ReLU為啟用函式)網路結構及其定義域劃分示意圖[32]

對於更為一般的情況,與淺層PWLNN模型類似,深層PWLNN網路中神經元的連線方式也可多樣化,例如全連線網路和卷積神經網路CNN,以及逐層連線和殘差網路ResNet。

進一步的,PWLNN中神經元間的非線性傳遞函式也可以為一般形式的連續分片線性函式,不僅限於一般的一維函式,例如ReLU及Leaky ReLU[34],也可以為多維的Maxout[26]等。

圖7示意了具有一般形式的PWLNN網路結構,適用於上述所有淺層和深層PWLNN模型。

清華、上交等聯合發表:關於“分片線性神經網路”最新綜述!


圖8. 一般PWLNN模型結構示意圖

學習演算法

淺層的PWLNN的引數學習演算法主要是增量式地逐步新增神經元和/或更新引數,其目標是學習到一個更寬的網路,以實現更好的學習效果。

不同的淺層PWLNN模型通常有其特有的學習演算法,充分考慮模型特有的幾何特性及實際應用需求,例如圖4(a)中對應的連結超平面模型對應找連結演算法[13],及圖4(b)中單純形模型對應的基於單純形找片的辨識算[2]等。

以圖9為例,透過逐步新增左側所示的辨識得到的三個基函式,可得到右側對應的PWLNN,實現對示例中正弦函式的逼近。

清華、上交等聯合發表:關於“分片線性神經網路”最新綜述!

圖9. 基於增量式學習的單純形找片演算法示意圖[2]

淺層的PWLNN廣泛應用於函式逼近、系統辨識及預測控制等領域中的問題,但在處理高維問題、大規模資料及複雜任務時,這些模型的靈活性及演算法效率仍具有侷限性[5]。

相比較而言,深層的PWLNN的學習則延續了深度學習中一般深度網路的最佳化演算法,即其通常具有預先確定的網路結構,並在基於梯度反向傳播策略和隨機梯度下降演算法的學習框架下進,最佳化網路引數,這樣實現了對最佳化過程的簡化並提高了學習效率,從而使其可以求解複雜問題[16]。

值得一提的是,分片線性啟用函式(如ReLU)的引入,能有效抑制梯度消失等影響深度學習應用效果的不利特性[22],因此PWLNN的發展也在一定程度上促進了深度學習的發展。

此外,在GPU/TPU等硬體和各類成熟的深度學習軟體平臺的支撐下,對計算能力具有較高需求的深層的PWLNN能夠應用於更大規模的問題,使其在當今的大資料時代脫穎而出。

分片線性特性

與其他非線性函式不同,分片線性函式具有一個重要性質,即其對定義域劃分和子區域區域性線性表達的可解釋性。

除了強大的逼近能力,目前分片線性還被廣泛的應用於深度學習中的各類理論分析中[24-30],例如透過利用線性子區域邊界特性驗證對於給定輸出情況下網路輸出預測的魯棒性驗證[28-29],以及利用估計線性子區域片數衡量網路靈活性[24]等。

深層PWLNN的分片線性特性導致的複雜的子區域劃分及模型表示式會阻礙分片線性函式的可解釋能力和帶來難易預測的行為特徵。

淺層的PWLNN的建模及學習演算法通常會考慮定義域中各子區域的區域性線性特徵,並以實現足夠稀疏的模型結構為引數學習目標。

特別地,具有不同形式的淺層PWLNN對應了不同的引數學習演算法,這些演算法充分考慮了各模型特有的幾何特徵,從而實現較好的學習效果。

例如,對應於連結超平面模型的找連結演算法[13],對應於自適應連結超平面模型的基於定義域劃分的樹形結構演算法[9]等。

然而,深層的PWLNN通常忽略了模型的幾何特徵,而透過為各個神經節點配置形式簡單的分片線性對映函式,並結合多層結構帶來的非線性特性逐層疊加效應,以實現極其複雜的子區域劃分和區域性線性表達。

儘管在各領域問題的求解過程中的數值結果證明了深層PWLNN的優越效能,但模型引數學習演算法與模型結構相獨立,一般採用深度學習的常用策略,即隨機梯度下降演算法,而忽略了分片線性特性對學習過程的影響。

因此,在這一點上,未來仍有很多亟待研究的問題。

例如,如何為具有不同網路結構和神經元對映函式的PWLNN構建特有的學習演算法,在保持引數稀疏性和模型可解釋性的同時,提升學習過程的效率和效果;

對於給定資料集,是否能夠以及如何找到一個具有最簡單結構和模型可解釋性的深層PWLNN;

這樣的PWLNN應該透過顯式的構建一個淺層PWLNN或隱式的的正則化一個深層PWLNN得以實現;

如何建立PWLNN與其他強調區域性特徵學習的深度神經網路之間的區別和關係等。

綜上,此綜述對PWLNN方法論進行了的系統性回顧,從淺層網路和深層網路兩個方面對錶示模型、學習演算法、基礎理論及實際應用等方面內容進行了梳理,展現了淺層的PWLNN向當今廣泛使用的深層的PWLNN的發展歷程,全面剖析了二者之間的關聯關係,並對現存問題和未來研究方向進行了深入討論。

不同背景的讀者可以很容易地瞭解到從PWLNN的開創性工作到當今深度學習中最先進的PWLNN的發展路線。同時,透過重新思考早期的經典工作,可將其與最新研究工作相互結合,以促進對深層PWLNN的更深入研究。

學習可關注人工智慧技術與諮詢,更多詳情可諮詢175-3102-1189(v同號)。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70021344/viewspace-2917347/,如需轉載,請註明出處,否則將追究法律責任。

相關文章