學習筆記【深度學習2】:AI、機器學習、表示學習、深度學習，第一次大衰退

AI早期成就，相對樸素形式化環境，不要求世界知識。如IBM深藍(Deep Blue)國際象棋系統，1997，擊敗世界冠軍Garry Kasparov(Hsu,2002)。國際象棋，簡單領域，64個位置，嚴格限制方式移動32個棋子。可由簡短、完全形式化規則列表描述，容易事先準備。抽象、形式化，是人類最困難腦力任務，但計算機最容易。早期打敗人類最好象棋選手，最近識別物件、語音任務達到人類平均水平。日常生活需要世界巨量知識，主觀、直觀，很難形式化表達。計算機智慧需要獲取同樣知識。關鍵挑戰，非形式化知識傳給計算機。

世界知識形式化語言硬編碼(hard code)。邏輯揄規則自動理解形式化語言宣告。人工智慧知識庫(knowledge base)。著名專案Cyc(Lenat and Guha,1989)，一個推斷引擎，一個CycL語言描述宣告資料庫。宣告由人類監督者輸入。設計足夠複雜形式化規則精確描述世界(Linde,1992)。

AI系統需自己獲取知識。原始資料提取模式，機器學習(machine learning)。解決現實世界知識問題，作為主觀決策。邏輯迴歸(logistic regression)決定是否建議剖腹產(Mor-Yosef et al.,1990)。樸素貝葉斯(naive Bayes)區分垃圾電子郵件。簡單機器學習演算法效能依賴給定資料表示(representation)。需要人工提供資訊特徵，不能影響特徵定義方式。表示依賴。資料集合結構化、智慧索引，搜尋速度指數加快。表示選擇影響機器學習演算法效能。先提取合適特徵集，提供給簡單機器學習演算法。

機器學習發掘表示本身，不僅把表示對映輸出。表示學習(representation learning)。表示學習演算法發現好特徵集效果比人工高。表示學習演算法典型例子，自編碼器(autoencoder)。編碼器(encoder)函式和解碼器(decoder)函式組合。編碼器函式將輸入資料轉換不同表示，解碼器函式將新表示轉換為原來形式。輸入資料經過編碼器、解碼器儘可能多保留資訊，新表示有好特性，自編碼器訓練目標。實現不同特性，設計不同形式自編碼器。設計特徵、學習特徵演算法，分離解釋觀察資料變差因素(factors of variation)。因素指代影響不同來源，乘性組合，不能直接觀察的量，影響可觀測的量。為觀察資料提供有用簡化解釋或推斷原因，以概念形式存在人類思維。資料概念、抽象，幫助瞭解資料豐富多樣性。多個變差因素同時影響觀察資料。需要理清變差因素，忽略不關心因素。

深度學習(deep learning)，通過其他簡單表示表達複雜表示，解決表示學習核心問題。簡單概念構建複雜概念。計算機難以理解原始感觀輸入資料含義。複雜對映分解系列巢狀簡單對映(每個由模型不同層描述)。輸入展示在可見層(visible layer)，能觀察到變數。一系列影像提取抽象特徵隱藏層(hidden layer)。值不在資料給出。模型確定有利於解釋觀察資料關係的概念。影像是每個隱藏單元表示特徵視覺化。給定畫素，第一層比較相鄰畫素亮度識別邊緣。第二隱藏層搜尋可識別角、擴充套件輪廓邊集合。第三隱藏層找到輪廓、角特定集合檢測特定物件整個部分。根據影像描述包含物件部分，識別影像存在物件。

典型例子，前饋深度網路、多層感知機(multilayer perceptron,MLP)。一組輸入對映到輸出值數學函式。多個簡單函式複合。不同數學函式每次應用為輸入提供新表示。學習資料正確表示。深度促使計算機學習一個多步驟計算機程式。每一層表示並行執行另一組指令後計算機儲存器狀態。更深網路按順序執行更多指令。順序指令，後面指令參考早期指令結果。表示儲存狀態資訊，幫助國程式理解輸入。度量模型深度，基於評估架構所需執行順序指令數目。模型表示為給定輸入後，計算對應輸出流程圖，最長路徑為模型深度。相同函式被繪製為不同深度流程圖，取決一個步驟的函式。概念關聯圖深度作模型深度。系統對簡單概念理解，給出複雜概念資訊，進一步精細化。深度學習研究模型更多學到功能或學到概念組合。深度學習將世界表示為巢狀層次概念體系(簡單概念聯絡定義複雜概念，一般抽象概括到高階抽象表示)。

AI(知識庫)->機器學習(邏輯迴歸)->表示學習(淺度自編碼器)->深度學習(MLPs)。基於規則系統(輸入->手工設計程式->輸出)->經典機器學習(輸入->手工設計特徵->從特徵對映->輸出)->表示學習(輸入->特徵->從特徵對映->輸出)->深度學習(輸入->簡單特徵->更抽象特徵額外層->從特徵對映->輸出)。

深度學習適用領域，計算視覺、語音音訊處理、自然語言處理、機器人技術、生物資訊學化學、電子遊戲、搜尋引擎、網路廣告、金融。

應用數學與機器學習基礎->線性代數->概論、資訊理論、數值計算->機器學習基礎->深度網路現代實踐->深度前饋網路->正則化->優化->卷積神經網路->迴圈神經網路->實踐方法論->應用->深度學習研究->線性因子模型->自編碼器->表示學習->結構化概率模型->蒙特卡羅方法->配分函式->推斷->深度生成模型。

深度學習歷史趨勢。深度學習歷史悠久豐富。可用訓練資料量增加，變得更加有用。針對深度學習計算機軟硬體基礎設施改善，模型規模增長。解決日益複雜應用，精度提高。
神經網路名稱命運變遷。深度學習3次發展浪潮。20世紀40年代到60年代，控制論(cybernetics)。生物學習理論發展(McCulloch and Pitts, 1943; Hebb, 1949)，第一個模型實現(感知機 Rosenblatt,1958)，實現單個神經元訓練。20世紀80年代到90年代，聯結主義(connectionism)，反向傳播(Rumelhart et al.,1986a)訓練一兩個隱藏層神經網路。2006年，深度學習復興(Hinton et al.,2006a;Bengio et al.,2007a;Ranzato et al.,2007a)。深度涫超越機器學習模型神經科學觀點。學習多層次組合。前身神經科學簡單線性模型。用一組n個輸入x1,…,xn，與一個輸出y相關聯。學習一組權重w1,…,wn，計算輸出f(x,w)=x1w1+…+xnwn。控制論。
McCulloch-Pitts神經元(McCulloch and Pitts,1943)，腦功能早期模型。線性模型檢驗函式f(x,w)下負識別兩種不同類別輸入。模型權重正確設定使模型輸出對應期望類別。權重由人工設定。20世紀50年代，感知機(Rosenblatt,1956,1958)，第一個根據每個類別輸入樣本學習權重模型。同時期，自適應線性單元(adaptive linear element,ADALINE)，簡單返回函式f(x)值預測一個實數(Widrow and Hoff,1960)，學習從資料預測這些數。調節ADALINE權重訓練演算法，隨機梯度下降(stochastic gradient descent)。當今深度學習主要訓練演算法。
基於感知機和ADALINE使用函式f(x,w)模型為線性模型(linear model)。目前最廣泛機器學習模型。無法學習異或(XOR)函式，f([0,1],w)=1, f([1,0],w)=1, f([1,1],w)=0, f([0,0],w)=0。批評者牴觸受生物學啟發的學習(Minsky and Papert,1969)。神經網路熱潮第一次大衰退。

現在，神經科學是深度學習研究重要靈感來源，不再是主要指導。沒有足大腦資訊作指導。大腦實際使用演算法深刻理解，需要同時監測數千相連神經元活動。大腦最簡單、最深入研究部分還沒有理解(Olshausen and Field,2005)。

參考資料：
《深度學習》

歡迎推薦上海機器學習工作機會，我的微信：qingxingfengzi

學習筆記【深度學習2】:AI、機器學習、表示學習、深度學習，第一次大衰退

相關閱讀

學習筆記DL004:標量、向量、矩陣、張量，矩陣、向量相乘，單位矩陣、逆矩陣

學習筆記DL003:神經網路第二、三次浪潮，資料量、模型規模，精度、複雜度，對現實世界衝擊

騰訊數平精準推薦｜斬獲2017年第14屆國際文件分析與識別競賽四項冠軍

相關文章