深度學習在人工智慧領域的七大階段

龍騰AI技術發表於2022-09-27

這兩年人工智慧(Artificial Intelligence)領域熱鬧非凡,不僅科技巨頭紛紛發力AI取得技術與產品的突破,還有眾多初創企業獲得風險資本的青睞,幾乎每週都可以看到相關領域初創公司獲得投資的報導。AiphaGo在圍棋遊戲中大勝李世石使人們對AI刮目相看的同時也引發了對AI將如何改變我們生活的思考。

其實,人工智慧從上世紀40年代誕生至今,經歷了一次又一次的繁榮與低谷,下面我們就來回顧下過去半個世紀里人工智慧的發展歷程。

|人工智慧發展的七個階段

1.起源階段:人工智慧真正誕生於20世紀的40 - 50年代。這段時間裡,大量從事數學、工程、計算機等研究領域的科學家們開始探討“人工大腦”的可能性。1950年阿蘭 圖靈(Alan Turing)發表了題為“機器能思考嗎”的著名論文,提出了著名的圖靈測試來定義機器智慧。他說只要有30%的人類測試者在5分鐘內無法分辨出被測試物件究竟是人類還是機器,就可以認為機器透過了圖靈測試。


深度學習在人工智慧領域的七大階段

圖1:圖靈測試

2.第一次黃金時期:專業術語“人工智慧”(Artificial Intelligence)誕生於1956年的達特矛斯會議,由電腦科學家John McCarthy首次正式提出。達特矛斯會議之後的十多年是人工智慧的第一次黃金時代,科學家們對人工智慧的前景滿懷激情,大批研究者撲向這一新領域,一些頂尖高校建立的人工智慧專案獲得了ARPA等機構的大筆經費,甚至有研究者認為機器很快就能替代人類完成一切工作。

3.第一次低谷:到了70年代,由於計算機效能瓶頸、計算複雜性的增長以及資料量的不足,很多人工智慧科研專案的承諾無法兌現,比如計算機視覺根本找不到足夠的資料庫進行訓練,智慧也就無從談起。因此,學界將人工智慧分為兩種:難以實現的強人工智慧和可以嘗試的弱人工智慧。強人工智慧就是能像人類一樣執行通用任務;弱人工智慧則只能處理單一問題。很多專案的進度停滯不前也影響了資助資金的走向,AI陷入了長達數年之久的低谷。

4.專家系統的出現:70年代之後,學術界逐漸接受新的思路:人工智慧不光要研究演算法,還得引入知識。於是,專家系統誕生了。它利用數字化的知識去推理,模仿某一領域的專家去解決問題。“知識處理”開始成為人工智慧的研究重點。,1977年世界人工智慧大會提出“知識工程”的啟發,rb的第五代計算機計劃、英國的阿爾維計劃、歐洲的尤里卡計劃和mg的星計劃 相繼出來 ,帶來專家系統的高速發展。

5.第二次經費危機:20世紀90年代之前的大部分人工智慧專案都是靠zf機構資助,經費走向直接影響著人工智慧的發展。80年代中期,蘋果和IBM的桌上型電腦效能已經超過了運用專家系統的通用型計算機,專家系統的風光隨之褪去,人工智慧研究再次遭遇經費危機。

6.IBM的深藍和Watson:專家系統之後,機器學習成為了人工智慧的焦點,其目的是讓機器具備自動學習的能力,透過演算法使得機器能夠從大量歷史資料中學習規律並對新的樣本作出判斷識別。。在這一階段,IBM無疑是人工智慧領域的領袖,1996年IBM公司的AI系統“深藍”戰勝了國際象棋世界冠軍卡斯帕羅夫,2011年IBM公司的AI系統Watson在電視問答節目中戰勝人類選手。後者涉及到放到現在仍然是難題的自然語言理解,成為機器理解人類語言的里程碑事件。

7.深度學習的強勢崛起:深度學習是機器學習的第二次浪潮。2013年4月,《麻省理工學院技術評論》將深度學習列為2013年十大突破性技術之首。其實,深度學習並非新事物,它是傳統神經網路(Neural Network)的發展,兩者採用了相似的分層結構,不同之處在於深度學習採用了不同的訓練機制,具備強大的表達能力。傳統神經網路曾經在機器學習領域火過一陣子,但後來由於引數難於調整和訓練速度慢等問題逐漸淡出了人們的視野。

但是有一位叫Geoffrey Hinton的多倫多大學老教授非常執著於神經網路的研究,並和Yoshua Bengio、Yann LeCun一起提出了可行的深度學習方案。2012年Hinton的學生在圖片分類競賽ImageNet上打敗了Google,頓時讓學術界和工業界譁然,吸引了工業界對深度學習的大規模投入。2012年Google Brain用16000個CPU核的計算平臺訓練10億神經元的深度網路,無外界干涉下自動識別出了“Cat”;Hinton的DNN初創公司被Google收購,Hinton個人也加入了Google;而另一位大牛LeCun加入Facebook,出任AI實驗室主任。不僅科技巨頭們加大對AI的投入,一大批初創公司乘著深度學習的東風湧現,使得人工智慧領域熱鬧非凡。

|人工智慧之主要引擎:深度學習

機器學習發展分為兩個階段,起源於上世紀20年代的淺層學習(ShallowLearning)和最近幾年才火起來的深度學習(Deep Learning)。淺層學習的演算法中最先被發明的是神經網路的反向傳播演算法(back propagation)。為什麼稱之為淺層呢,因為當時的訓練模型是隻含有一層隱含層的淺層模型。這種模型有個很大的弱點,那就是有限引數和計算單元,特徵表達能力弱。

上世紀90年代,學術界提出一系列的淺層機器學習模型,包括風行一時的支撐向量機Support Vector Machine,Boosting等。這些模型相比傳統神經網路在效率和準確率上都有所提升。但後來人們發現,識別精度到達一定程度後,即使訓練再多的資料,再怎麼調整引數,精度也無法繼續提高。

在此期間,Hinton教授一直執著於多隱層神經網路的演算法研究。多隱層神經網路其實就是淺層神經網路的深度版本,試圖使用更多的神經元來表達特徵,其實現難點主要在於以下三方面:

BP演算法中誤差的反向傳播隨著隱層的增加而衰減;很多時候只能達到區域性最優解;

模型引數增加,對訓練資料的量有很高要求,如果不能提供龐大的標識資料,可能會導致過度複雜;

多隱層結構的引數多,訓練資料的規模大,需要消耗很多計算資源。

深度學習在人工智慧領域的七大階段

圖2:傳統神經網路與多隱層神經網路

2006年,Hinton和他的學生R.R. Salakhutdinov成功訓練出多層神經網路,在《Science》上發表文章(Reducingthe dimensionality of data with neural networks),改變了整個機器學習的格局。這篇文章有兩個主要觀點:1)多隱層神經網路有更強大的學習能力,可以表達更多特徵來描述物件;2)訓練深度神經網路時,可透過降維(pre-training)來實現。Hinton教授設計的Autoencoder網路能夠快速找到好的全域性最優點,採用無監督的方法先分開對每層網路進行訓練,然後再進行微調。

深度學習在人工智慧領域的七大階段

圖3:影像的與訓練,編碼→解碼→微調

從圖3我們可以看到,深度神經網路是逐層進行預訓練,得到每一層的輸出;同時引入編碼器和解碼器,透過原始輸入與編碼→再解碼之後的誤差來訓練,這兩步都是無監督訓練過程;最後引入有標識樣本,透過有監督訓練來進行微調。逐層訓練的好處是讓模型處於一個接近全域性最優的位置去獲得更好的訓練效果。

以上就是Hinton在2006年提出的著名的深度學習框架,而我們實際運用深度學習網路的時候,不可避免的會碰到卷積神經網路(Convolutional Neural Networks, CNN)。CNN的原理是模仿人類神經元的興奮過程:大腦中的一些神經細胞只有在特定方向的邊緣存在時才能做出反應。打個比方,當我們非常近距離地觀察一張人臉圖片時,這時候我們的大腦中只有一部分神經元是被啟用的,我們也只能看到人臉上的畫素級別點,當我們把距離一點點拉開,大腦其他部分的神經元將會被啟用,我們也就可以觀察到人臉的線條→圖案→區域性→整個人臉,這就是一步步獲得高層特徵的過程。

深度學習在人工智慧領域的七大階段

圖4:基本完整的深度學習流程

深度學習的好處是顯而易見的 – 特徵表達能力強,有能力表示大量的資料;預訓練是無監督訓練,節省大量人力標識工作;相比傳統的神經網路,透過逐層訓練的方法降低了訓練難度,如訊號衰減的問題。深度學習在很多領域比淺層學習演算法往往有20-30%的提高,驅使研究者發現新大陸一般湧向深度學習這一領域。

|深度學習的重要發展領域

深度學習首先在影像、聲音和語義識別取得了長足的進步,特別是在影像和聲音領域相比傳統演算法大大提升了識別率。其實也很容易理解,深度學習是模仿人類大腦神經感知外部世界的演算法,而最常見的外部自然訊號莫過於影像、聲音和文字(非語義)。

影像識別:影像是深度學習最早嘗試的領域。YannLeCun早在1989年就開始了卷積神經網路的研究,取得了在一些小規模(手寫字)的影像識別的成果,但在大畫素圖片識別上遲遲沒有突破,直到2012年Hinton和他學生在ImageNet上的突破,才使識別精度提高了一大截。2014年,xg中文大學教授湯曉鷗領導的計算機視覺研究組開發了名為DeepID的深度學習模型,在人臉識別上獲得了99.15%的識別率,超過了人類肉眼的的識別率(97.52%)。

語音識別:語音識別長期以來都使用混合高斯模型來建模,儘管降低了語音識別的錯誤率,但在有噪音的實際自然環境中達不到可用的級別。直到深度學習的出現,使得識別錯誤率在以往最好的基礎上相對下降30%以上,達到商業可用的水平。

自然語言處理(NLP):即使到現在,深度學習在NLP領域並沒有取得像影像識別或者語音識別領域那樣的成就,基於統計的模型仍然是NLP的主流,先透過語義分析提取關鍵詞、關鍵詞匹配、演算法判定句子功能(找出距離這個句子最近的標識好的句子),最後再利用提前準備的資料庫提供使用者輸出結果。顯然,這明顯談不上智慧,只能算一種搜尋功能的實現,而缺乏真正的語言能力。

為什麼深度學習在NLP領域進展緩慢?這是因為,對語音和影像來說,其構成元素(輪廓、線條、語音幀)不用經過預處理都能清晰反映出要識別的物件,可以直接放到神經網路裡進行識別。而語義識別大不相同:人說的每句話並非自然訊號,含有豐富多變的語義,對它的理解需要參考上下文語境的,有時候還會涉及到大量的文化背景知識。因此,仿人類大腦識別機制建立的深度學習,對經過我們人類大腦處理的文字訊號的理解,效果反而差強人意。根本上來說,現在的演算法還屬於弱人工智慧,可以去幫人類快速的自動執行(識別),卻不能理解這件事情本身。

|深度學習的挑戰和發展方向

受益於計算能力的提升和大資料的出現,深度學習在計算機視覺和語音識別領域成就斐然,不過我們也看到了一些深度學習的侷限性,亟待解決:

  1. 深度學習在學術領域取得了不錯的成果,但在商業上對企業幫助並不明顯。因為深度學習是一個對映的過程,從輸入A對映到輸出B,而在企業活動中如果我已經擁有了這樣的A→B對映,為什麼還需要機器學習來推斷呢?讓機器自己在資料中尋找這種對映關係或者進行yc,目前還存在很大難度。
  2. 缺乏理論基礎,這是困擾著研究者的問題。比如說,AlphaGo這盤棋贏了,你很難弄懂它是怎麼贏的。可以說,深度學習是一個黑箱子,神經網路需要多少個隱層來訓練,到底需要多少有效的引數等,都沒有很好的理論解釋。
  3. 深度學習需要大量的訓練樣本。由於深度學習的多層網路結構,模型的引數也會增加,如果訓練樣本不夠大是很難實現的,需要海量的標記資料,避免產生過擬合現象(overfitting)而不能很好的表示整個資料。
  4. 深度學習在NLP領域還面臨很大挑戰,目前的模型缺乏理解及推理能力。

因此,深度學習將來的發展方向也將涉及到以上問題的解決。Hinton、LeCun和Bengio三位AI領袖曾在合著的一篇論文(Deep Learning)的結尾提出了深度學習的未來發展方向:

  1. 無監督學習。雖然監督學習在深度學習中表現不俗,超過了無監督學習在預訓練中的效果,但人類和動物的學習都是無監督學習方式,我們感知世界都是透過我們自己的觀察,因此若要更加接近人類大腦的學習模式,無監督學習需要得到更好的發展。
  2. 強化學習。增強學習指的是從外部環境到行為對映的學習,透過基於回報函式的試錯來發現最優行為。由於在實際運用中資料量是遞增的,在新資料中能否學習到有效的資料並做出修正非常重要,深度+強化學習可以提供獎勵的反饋機制讓機器自主的學習,典型案例是AlphaGo。
  3. 理解自然語言。老教授們說:趕緊讓機器讀懂人類的語言吧!
  4. 遷移學習。把利用大資料訓練好的模型遷移運用到有效資料量小的任務上,也就是把學到的知識有效的解決不同但相關領域的問題。這事情看起來很美好,但難點在於已訓練好的模型存在自我偏差,需要高效演算法去消除這些偏差。根本上來說,就是讓機器像人類一樣具備快速學習新知識的能力。

自深度學習被Hinton在《Science》發表以來,短短的不到10年時間裡,帶來了人工智慧在視覺、語音等領域的突破性進步,再一次掀起來人工智慧的熱潮。雖然目前仍然存在很多差強人意的地方,距離強人工智慧還有很大差距,但深度學習是目前最接近人類大腦運作原理的演算法。相信在將來,隨著演算法的完善以及資料的積累,甚至硬體層面仿人類大腦神經元材料的出現,深度學習將會更進一步推動人工智慧的發展。

學習和關注人工智慧技術與諮詢,更多詳情可諮詢175-3102-1189(v同號)。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70021344/viewspace-2916332/,如需轉載,請註明出處,否則將追究法律責任。

相關文章