北大張志華:機器學習就是現代統計學

dicksonjyl560101發表於2019-05-16

https://www.toutiao.com/a6691154931530859021/



北大張志華:機器學習就是現代統計學

大資料文摘出品

內容來源:智源論壇

數學最重要的魅力在於幫助我們提出解決問題的思路或途徑。

而機器學習在一定程度上正是數學和工程的完美結合,畢竟用數學裡面的概率論、隨機分析等工具研究AI早已不是什麼新鮮事情。例如機器學習的四個基本原則性的問題,即泛化性、穩定性、可計算性和可解釋性就可以用數學工程手段來解決。

在5月 9日的北京智源人工智慧研究院主辦的“智源論壇——人工智慧的數理基礎”系列報告中,北京⼤學的張志華教授對機器學習和數學工程的內在關係進行了闡述。在報告中,他提到:統計為求解問題提供了資料驅動的建模途徑;概率論、隨機分析、微分方程、微分流形等工具可以引入來研究 AI 的數學機理等等。

除此之外,張志華教授還回顧了機器學習發展的⼏個重要階段,以及重點強調機器學習和人工智慧之間並不能畫等號,畢竟機器學習實際上是研究演算法的學科,而人工智慧志在模擬人的思維和行為。

在回答現成觀眾問題的時候,其也提到機器學習就是統計學的一個分支,機器學習比統計學更接地氣。

以下張志華教授的演講速記,文摘菌做了有刪改的整理,請欣賞~

機器學習發展現狀的認識

機器學習與人工智慧有著本質上的不同,前者志不在模擬人的思維和行為,主要是想通過經驗和互動的方式改善效能,是基於規則的學習。機器學習實際上是研究演算法的學科,演算法是基於資料型演算法,然後反饋到資料中去。 可以簡單地把機器學習的過程看作這樣一個思路,然後可以基於此看看機器學習發展的歷程:

傳統方法:基於規則學習

北大張志華:機器學習就是現代統計學

第一個歷程是基於規則的學習,它的目的就是為了規則,有規則它就可以做預測。但是重點不是怎麼形成規則,而是資料到表示,即通過認知的手段,把人對資料的認識過程,用計算機記錄下來。從而成一種形式化的方式,自然而然就有一種規則和邏輯的方式去做預測。它主要代表有兩個,一個是專家系統,包括知識庫和推理基,其中重點就是知識庫。另外一個是句法模式識別,模式的目的也是怎麼樣把一個物件通過一種形式化的方式表示出來。

但這一階段也暴露出一些問題,其一便是基於規則學習的方法雖然對於淺層推理比較有效,但遇上深層推理需求,如果形成規則過多,在其中搜尋就容易出現前面的分享提到過的維數災難問題。

為了解決問題,一個用一個強大的非線性學習模型來弱化資料到表示過程的作用,基於這樣的理論,機器學習發展至第二個階段。

統計機器學習黃金髮展的十年

北大張志華:機器學習就是現代統計學

第二階段是90年代中期到2005年左右十年的時間。在這一階段為了解決維數災難,出現了一個數論:即基於規則的方式,環成一個非線性的一種模型,或者用計算的手段運作模型,然後反過來可以弱化資料到表示的過程。

這一階段的神經網路(80 年代就已經出現神經網路模型)則相對趨於比較低落的時期,表現平平,發展遇冷。主要原因在於時期的機器學習方法比神經網路要更為簡單,效能也要更好,屬性性質相對完美,自然而然地就取代了神經網路。

但隨著統計方法發展到一定階段,大家發現“資料到表示”這件事情還是繞不過去。而應對這一問題地一個簡單的思路就是通過學習的途徑來求解表示問題,從而弱化研究者對於領域背景高度掌握的要求,也就是通過一個自動化的方式來解決這一問題。

基於深度表示的學習


北大張志華:機器學習就是現代統計學


大模型+大資料+大計算使得這種思路變得可行,機器學習也進入了第三階段。AlexNet 網路的提出在後來為問題帶來了突破性進展,很多做計算機視覺的人在網路方面不停跟進,這些發展主要是基於視覺的。

那麼在機器翻譯、自然語言處理,自然而然也想到深度學習既然可以解決視覺問題,當然就可以把深度學習拿到機器學習來,所以現在在機器學習裡面它的主要的模型也是基於深度。雖然模型可能不是卷積神經網路,但是核心確是LSTM這種東西。但是不管怎麼樣,相對於機器學習,自然語言處理深度學習,在自然語言處理它的效果或者它的作用遠遠沒有那麼好。

在上述時期,用深度學習它的目的還不是為了表示,主要是為了什麼?還是為了非線性的擬合,在自然語言處理,個人理解目前為止還沒有找到一種非常有效的,像卷積神經網路有效表示影像的網路,所以導致自然語言處理沒有像影像那麼強大。

那這整個過程,知道都是在一個有監督的方式裡面去做的,本質上就是把資料到表示用一個模型和計算的方式做。而表示到預測、決策也是通過模型計算的,整個可以看到從資料到預測是端到端的優化學習過程。

深度學習目前現狀:無監督問題突出

深度學習發展到現在,主要講是有監督的學習,但是現在很多問題是無監督的,就是無監督的問題遠遠比有監督的問題要多,而且要複雜。那麼一個簡單的思想就是要把無監督的問題要形成與有監督類似的學習的過程,有一個優化的過程,用機器學習的方法解決事情,在統計裡面,現在假設X要生成它,那麼如果X是連續的,可以假設X是高斯,但是如果X來自高斯假設很強,但是可以說X是來自什麼?是一個高斯混合體,如果X是一個連續的向量,那它總是可以用一個高斯混合體去逼近它,是沒有任何問題的。

但是時候發現X是一個抽象的數學意識,並沒有具體的物理意義,那麼自然神經網路這些技術能不能對一個影像進行生成了,對語言進行生成,而不是對數學意義上的X去生成。現在發展比如有一個生成對抗網路,它就是解決這樣的問題,它的目的不是為了生成一個抽象數學意義上的X,是生成一個真正的影像或者語言,那麼它的框架實際上就是怎麼樣形成一個優化問題。

強化學習目前的復興是因為深度學習

另一個發展方向是強化學習,強化學習是什麼呢?它利用規則與環境互動或者獎賞,然後形成一個學習優化問題,形成一個優化問題。

對於強化學習,不是最近才發明出來的。其主要的數學手段是馬爾可夫決策過程,它通過馬爾可夫決策過程去描述問題,描述問題之後要去解問題,發現問題最優解,最後把它定成貝爾曼方程,那麼解貝爾曼方程的話發現是可以用不動點定理來描述貝爾曼方程。那麼有了不動點定理支撐,現在主要是有兩個思路,第一個思路是基於Value,也就是用Value迭代找到最優值。另外一種就是Polic迭代,因為本質上不是找Value,是找Polic,所以就直接在Polic方面去做迭代。

現在很多實際問題實際上對環境是不會已知的,也就是說對卷積概率是不會知道的。這時候發展就是一個所謂的Q-Learning,實際上Q-Learning定義了一個新的函式叫Q函式。那麼在Q-Learning基礎上,就發展出來深度的Q網路,目前現在主要做的比如像Polic的梯度方法,這是強化學習或者深度強化學習目前發展的一個主要結點。

機器學習的技術路線

機器學習有三個問題。一個是有監督、無監督和強化學習。原來認為機器學習是統計的分支,現在認為機器學習就是現代統計學。機器學習和統計還有微妙的關係,機器學習是分類問題,而統計是迴歸問題,分類和迴歸也沒有太本質的區別。

第二,機器學習往往會形成優化問題。剛才說要形成優化過程,它跟優化是什麼區別?一個優化的學者,或者優化領域裡面它純粹就關注找到最優值。但是對於機器學習的學者來說,最緊急的是要找到預測資料。

現在看來,現代的機器學習它主要成功就在於表示,就是深度學習是一個表示,它不是單純的是一個非線性模型,主要是一個非線性的表示。當然想到機器學習它的目的是預測,而預測是通過計算得出。

但是深度學習也遇到很多挑戰,第一個是需要大資料的要求,大家網路是非常多,所以往往導致過引數的問題。另外就是在做表述是基於多層的表述,所以問題是高度的非凸化。

另外,現在機器學習要關注的重點問題有四個方面。第一個是可預測性、第二個可計算性、第三個是穩定性、第四個就是可解釋性。可能現在認為主要重點就是在穩定性和泛化性方面,因為覺得神經網路沒有可解釋性。

最後,張志華教授就機器學習和數學工程之間的關係給出了這樣的闡述:

  • 統計為求解問題提供了資料驅動的建模途徑;
  • 概率論、隨機分析、微分方程、微分流形等工具可以引入來研究 AI 的數學機理;
  • 無論從統計角度還是從數學角度來研究 AI,其實際效能最後都要通過計算呈現出來:
  • 1.數值分析,即求解連續數學問題的演算法;
  • 2.離散演算法,即求解離散結構問題的演算法;
  • 3.大規模計算架構


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2644536/,如需轉載,請註明出處,否則將追究法律責任。

相關文章