學習筆記【深度學習2】:AI、機器學習、表示學習、深度學習,第一次大衰退

騰訊雲加社群發表於2019-02-18

AI早期成就,相對樸素形式化環境,不要求世界知識。如IBM深藍(Deep Blue)國際象棋系統,1997,擊敗世界冠軍Garry Kasparov(Hsu,2002)。國際象棋,簡單領域,64個位置,嚴格限制方式移動32個棋子。可由簡短、完全形式化規則列表描述,容易事先準備。抽象、形式化,是人類最困難腦力任務,但計算機最容易。早期打敗人類最好象棋選手,最近識別物件、語音任務達到人類平均水平。日常生活需要世界巨量知識,主觀、直觀,很難形式化表達。計算機智慧需要獲取同樣知識。關鍵挑戰,非形式化知識傳給計算機。

世界知識形式化語言硬編碼(hard code)。邏輯揄規則自動理解形式化語言宣告。人工智慧知識庫(knowledge base)。著名專案Cyc(Lenat and Guha,1989),一個推斷引擎,一個CycL語言描述宣告資料庫。宣告由人類監督者輸入。設計足夠複雜形式化規則精確描述世界(Linde,1992)。

AI系統需自己獲取知識。原始資料提取模式,機器學習(machine learning)。解決現實世界知識問題,作為主觀決策。邏輯迴歸(logistic regression)決定是否建議剖腹產(Mor-Yosef et al.,1990)。樸素貝葉斯(naive Bayes)區分垃圾電子郵件。簡單機器學習演算法效能依賴給定資料表示(representation)。需要人工提供資訊特徵,不能影響特徵定義方式。表示依賴。資料集合結構化、智慧索引,搜尋速度指數加快。表示選擇影響機器學習演算法效能。先提取合適特徵集,提供給簡單機器學習演算法。

機器學習發掘表示本身,不僅把表示對映輸出。表示學習(representation learning)。表示學習演算法發現好特徵集效果比人工高。表示學習演算法典型例子,自編碼器(autoencoder)。編碼器(encoder)函式和解碼器(decoder)函式組合。編碼器函式將輸入資料轉換不同表示,解碼器函式將新表示轉換為原來形式。輸入資料經過編碼器、解碼器儘可能多保留資訊,新表示有好特性,自編碼器訓練目標。實現不同特性,設計不同形式自編碼器。設計特徵、學習特徵演算法,分離解釋觀察資料變差因素(factors of variation)。因素指代影響不同來源,乘性組合,不能直接觀察的量,影響可觀測的量。為觀察資料提供有用簡化解釋或推斷原因,以概念形式存在人類思維。資料概念、抽象,幫助瞭解資料豐富多樣性。多個變差因素同時影響觀察資料。需要理清變差因素,忽略不關心因素。

深度學習(deep learning),通過其他簡單表示表達複雜表示,解決表示學習核心問題。簡單概念構建複雜概念。計算機難以理解原始感觀輸入資料含義。複雜對映分解系列巢狀簡單對映(每個由模型不同層描述)。輸入展示在可見層(visible layer),能觀察到變數。一系列影像提取抽象特徵隱藏層(hidden layer)。值不在資料給出。模型確定有利於解釋觀察資料關係的概念。影像是每個隱藏單元表示特徵視覺化。給定畫素,第一層比較相鄰畫素亮度識別邊緣。第二隱藏層搜尋可識別角、擴充套件輪廓邊集合。第三隱藏層找到輪廓、角特定集合檢測特定物件整個部分。根據影像描述包含物件部分,識別影像存在物件。

典型例子,前饋深度網路、多層感知機(multilayer perceptron,MLP)。一組輸入對映到輸出值數學函式。多個簡單函式複合。不同數學函式每次應用為輸入提供新表示。學習資料正確表示。深度促使計算機學習一個多步驟計算機程式。每一層表示並行執行另一組指令後計算機儲存器狀態。更深網路按順序執行更多指令。順序指令,後面指令參考早期指令結果。表示儲存狀態資訊,幫助國程式理解輸入。度量模型深度,基於評估架構所需執行順序指令數目。模型表示為給定輸入後,計算對應輸出流程圖,最長路徑為模型深度。相同函式被繪製為不同深度流程圖,取決一個步驟的函式。概念關聯圖深度作模型深度。系統對簡單概念理解,給出複雜概念資訊,進一步精細化。深度學習研究模型更多學到功能或學到概念組合。深度學習將世界表示為巢狀層次概念體系(簡單概念聯絡定義複雜概念,一般抽象概括到高階抽象表示)。

AI(知識庫)->機器學習(邏輯迴歸)->表示學習(淺度自編碼器)->深度學習(MLPs)。基於規則系統(輸入->手工設計程式->輸出)->經典機器學習(輸入->手工設計特徵->從特徵對映->輸出)->表示學習(輸入->特徵->從特徵對映->輸出)->深度學習(輸入->簡單特徵->更抽象特徵額外層->從特徵對映->輸出)。

深度學習適用領域,計算視覺、語音音訊處理、自然語言處理、機器人技術、生物資訊學化學、電子遊戲、搜尋引擎、網路廣告、金融。

應用數學與機器學習基礎->線性代數->概論、資訊理論、數值計算->機器學習基礎->深度網路現代實踐->深度前饋網路->正則化->優化->卷積神經網路->迴圈神經網路->實踐方法論->應用->深度學習研究->線性因子模型->自編碼器->表示學習->結構化概率模型->蒙特卡羅方法->配分函式->推斷->深度生成模型。

深度學習歷史趨勢。深度學習歷史悠久豐富。可用訓練資料量增加,變得更加有用。針對深度學習計算機軟硬體基礎設施改善,模型規模增長。解決日益複雜應用,精度提高。
神經網路名稱命運變遷。深度學習3次發展浪潮。20世紀40年代到60年代,控制論(cybernetics)。生物學習理論發展(McCulloch and Pitts, 1943; Hebb, 1949),第一個模型實現(感知機 Rosenblatt,1958),實現單個神經元訓練。20世紀80年代到90年代,聯結主義(connectionism),反向傳播(Rumelhart et al.,1986a)訓練一兩個隱藏層神經網路。2006年,深度學習復興(Hinton et al.,2006a;Bengio et al.,2007a;Ranzato et al.,2007a)。深度涫超越機器學習模型神經科學觀點。學習多層次組合。前身神經科學簡單線性模型。用一組n個輸入x1,…,xn,與一個輸出y相關聯。學習一組權重w1,…,wn,計算輸出f(x,w)=x1w1+…+xnwn。控制論。
McCulloch-Pitts神經元(McCulloch and Pitts,1943),腦功能早期模型。線性模型檢驗函式f(x,w)下負識別兩種不同類別輸入。模型權重正確設定使模型輸出對應期望類別。權重由人工設定。20世紀50年代,感知機(Rosenblatt,1956,1958),第一個根據每個類別輸入樣本學習權重模型。同時期,自適應線性單元(adaptive linear element,ADALINE),簡單返回函式f(x)值預測一個實數(Widrow and Hoff,1960),學習從資料預測這些數。調節ADALINE權重訓練演算法,隨機梯度下降(stochastic gradient descent)。當今深度學習主要訓練演算法。
基於感知機和ADALINE使用函式f(x,w)模型為線性模型(linear model)。目前最廣泛機器學習模型。無法學習異或(XOR)函式,f([0,1],w)=1, f([1,0],w)=1, f([1,1],w)=0, f([0,0],w)=0。批評者牴觸受生物學啟發的學習(Minsky and Papert,1969)。神經網路熱潮第一次大衰退。

現在,神經科學是深度學習研究重要靈感來源,不再是主要指導。沒有足大腦資訊作指導。大腦實際使用演算法深刻理解,需要同時監測數千相連神經元活動。大腦最簡單、最深入研究部分還沒有理解(Olshausen and Field,2005)。

參考資料:
《深度學習》

歡迎推薦上海機器學習工作機會,我的微信:qingxingfengzi

相關文章