這才是深度學習的本源

dicksonjyl560101發表於2019-08-07
這才是深度學習的本源



內容來源: 2019年7月26日,在長城會主辦的“GMIC之院士AI論壇”上,索爾克生物研究所計算神經生物學實驗室主任特倫斯進行了以“人工智慧,將成科技的最大風口”為主題的精彩分享。筆記俠作為合作方,未經主辦方和講者稽核。

講者  | 特倫斯 封面設計  責編  | 馬暢 第 3960 篇深度好文:6003 字 | 12 分鐘閱讀

完整筆記·人工智慧

本文優質度:★★★★★   口感:紅燒獅子頭

筆記君邀您閱讀前,先思考:

  • 人工智慧是為了實現什麼?
  • 什麼是真正的深度學習?

一、人工智慧與人的大腦

大家好。現在人工智慧對科學發展起著推波助瀾的作用,如虎添翼,我們今天討論的話題,就是這樣普適的內容。

我們先回顧一下過去的250年。英國的工業革命興起後,蒸汽機的發明增強了人類使用動能的能力,一個蒸汽機就能取代一百個勞動力。

當時,世界上的大部分人口,仍在農場進行手工勞動,可這樣一來,手工勞動都被蒸汽機取代了。蒸汽機極大程度地替代了人工勞動力。

工業革命也帶來人口遷移,人們從鄉村轉移到城鎮。工業革命為社會帶來極深遠的影響。

從過去的250年可以看到,一系列的工業革命,使科學技術大範圍地使用,各種技術層出不窮,這些技術深刻影響我們生活的方方面面。

當然這也有不少缺陷。幾十年來,比如說工業革命時期的倫敦,有著大量的霧霾、煙塵,這是因為使用了以煤為驅動的蒸汽機所導致的。

在煤廠工作的煤炭工也飽受著呼吸疾病折磨,這是技術帶來便利的同時,也要面臨的挑戰。怎麼進行空氣治理,減少呼吸疾病,就是一大挑戰。

技術發展的同時,也需要處理技術帶來的後果。我們現在正面臨的人工智慧技術也不例外。


這才是深度學習的本源


▲ 長按圖片分享給需要的人

大家會聽到很多科技熱詞,我來簡單介紹一下:

人工智慧。這個名詞誕生於1956年,目標就是在機器上模仿人類智慧。這是一個非常大的目標,我們至今仍然沒有達到這個目標。

在人工智慧範疇內,有一個子範疇快速增長,就是機器學習。機器學習是以另一種方向發展人工智慧。

比如說你能程式設計,就說明你已經具備了這個領域的知識,能去解決相關問題,而且解決問題的形式就是程式設計。所以你能程式設計,就已經是這個領域的專家。

但機器學習的路徑是不一樣的。我們通過收集大量資料、通過機器進行學習,利用資料結構化進行學習,學習影象物件、語言、詞語序列等等。

在機器學習範疇,又另有一個方法學,就是特定演算法。這是受到大腦啟發觸動的一個方向。

我們的大腦是一個非常複雜的裝置,負責收集資訊,有數千億的腦神經元,來進行資訊傳遞。

比如在場這麼多人,大腦通過上千億腦神經元進行資訊處理,再將資訊傳遞給在座各位。

目前我們仍然不瞭解大腦的內部運作,但是我想說,深度學習的靈感就來自大腦運作機制。


這才是深度學習的本源


▲ 學習與程式設計的權衡

紅線是程式設計線,如果要僱一個程式設計師給你解決問題,這個成本從1980年到2040年,成本都是逐年增加的。程式設計員是很貴的,而且需要專家級的程式設計員。

所以相對來說,從發展開始,我們的機器學習,從上世紀80年代開始,成本就非常高,電腦非常貴。但是現在的人工智慧、機器學習,成本不斷下降。

2012年,機器學習演算法跟程式設計的成本大致相同,從2012年開始就逐年下降。

我們使用不同的資料組,不需要完全瞭解這個領域的知識,只要獲得大量例項資料,我們的機器就可以通過特定的學習演算法不斷解決困難。

我們使用神經網路處理系統,在30年前就提出“神經網路模式”的理論。腦神經網路可以有效處理複雜的資料組,也有能力處理上億的影象資料。

我相信在座各位對於阿爾法狗與柯潔的大戰是非常熟悉的。2017年阿爾法狗打敗世界圍棋冠軍柯潔,當時震驚世界。

不僅是因為它通過圍棋這麼複雜的運動,而打敗了世界圍棋冠軍,同時還有巨大的人類共鳴,認為:機器打敗人類,已經超越人類了。

在阿爾法狗打敗世界冠軍前,人們認為機器可以學得很好,但是不可能打敗人類。但我們來看看柯潔是怎麼說的:

“去年跟阿爾法狗對話,覺得它的下棋方式非常接近人類,今天已經像圍棋之神一樣在下棋,它每一步下棋的章法非常創新,是之前棋盤沒有出現過的,非常創新,如果是人,我們稱之為圍棋天才。因為是通過人工智慧,阿爾法狗出現創新下棋之舉,所以也可以看到通過AI機器學習,機器也可以實現超神一般的創新。”

人類的大腦機制,是一個非常簡單的版本,大腦裡有很多神經元,大概上千億個,但它們是平行工作的,這和數字化電腦不一樣。

電腦是有處理器的,是有記憶體的。記憶實際上是神經元之間的連線,也就是在突觸中存在,十的十次方個神經元,就有十個十次方個連線。

大腦裡突觸的數量非常多,也就是說大腦記憶體是巨大的,可以儲存非常多的資料,這是大腦的好處。問題是人腦是毫秒級傳輸速度,所以和電腦比慢很多。

在自然中,人腦沒有這麼多處理層,而且電腦計算速度更快,是因為我們居住的世界就是毫秒級的世界,不需要這麼快的速度。

我們在大腦中的資訊傳遞,是非常複雜的過程。資訊的儲存、處理等等,都是我們要解決的一大串問題,這才是最關鍵的。

還有一些挑戰,比如說有很多神經元、有突觸等等,最終是圍繞著中樞神經系統,這是最重要的一個器官。

我們要知道,某一個連線的改變是否會改變資訊的輸入和輸出?如果把這個連線改變了,就會受到影響。


這才是深度學習的本源


當時傑弗裡和我一起,得出神經演算法,也就是怎麼樣才能讓突觸處理正確的神經傳遞。

在這之前,幾乎所有的科學家和工程師覺得這是不可能的。但我想告訴一些年輕人:

你不要相信專家說的話,因為很多專家總是知道這個事情不能做的原因,但是不知道這個事情可以做成的方法。

所以我們發明了玻爾茲曼機,今天在網路神經學習中還在使用。

二、什麼是真正的深度學習?

深度學習網路是怎樣的?舉個例子:一邊是輸出,是要對疾病進行診斷,另一邊是各種各樣的輸入,對於醫生來說,看了就可以得出診斷。

每一個資訊點就是神經節點,最希望有一個架構師能讓這些資訊一層層傳遞到輸出端,可以有效地診斷這是什麼疾病。

幫助病人治病,我們需要大量的病歷輸入才可以做到這一點,而且必須從已經確診的病人那裡獲得資訊,這才是有效的輸入。

機器不是說要去記住這些東西,將其泛化,因為不同人給出的輸入不一樣,人腦可以進行非常好的泛化,這是我們希望讓機器做到的事情。

楊立昆是一個架構師,而且受到了視覺系統的啟發,大概在上世紀60、70年代的時候,已經有一些生物學家學習了人的視覺系統。所以我們知道在人腦當中,資訊是如何流動的。

他們研究了猴子的架構,因為人與猴子有一定的相似性。他們就是設計並用了卷積神經網路的演算法,這邊輸入資訊,將影象和神經元網路進行結合,傳輸後進行輸出。


這才是深度學習的本源


這裡有猴子的大腦,有一層層的神經輸入架構,最上面的是猴子的大腦皮層最上端,一、二、三層等等輸入,要怎麼樣大腦才能解決視覺輸入的方法?

楊立昆他們設計多層架構,使用早期的卷積神經網路,最終他們就有了識別物體的功能。

還有就是網路中的單元,模仿人的大腦,而且有閾值,如果低於這個閾值就沒有輸出,高於這個閾值才有。

之後他們還進行了一系列的實驗,進行了很多技術上的工作。


這才是深度學習的本源


這是2012年的時候,ImageNet比賽,這是一個深度學習應用。這個網路裡有概率分佈,第一張圖,大家最高概率猜的是老鼠,我可能也猜不出是蟲,以為是蜘蛛。

後面也是猜圖片,不同人看到的是不同面。我們看出,在效能級別上,深度學習能夠在計算機識別方面,把誤差率下降20%,這已經非常厲害了。

而且這是經過很多年才有的成果,但是對於某一些影象依然無法準確識別。關鍵是要不斷進行改善、演化。

今年圖靈獎頒給我的朋友楊立昆、約書亞·本吉奧、傑弗裡·辛頓,這相當於諾貝爾級別了,是對他們在深度學習裡非常大的鼓勵。

而且深度學習現在成了很熱的詞。去年我寫了一本書,總結深度學習的發展歷史:

深度學習是怎麼來的、學習演算法是怎麼來的、取得了哪些成功、有哪些失敗、未來將向何處去、偏差帶來哪些問題、怎麼解決、未來的挑戰等等。最近這本書已被翻譯成中文。

我書中的一個章節寫到:皮膚病醫生看病,檢查病人的病到底是癌症還是良性的,已經治療了2000例皮膚病的醫生收集的資料,用來做訓練集。

機器和16個皮膚病學家同場競技,人們發現網路表現和醫生是並駕齊驅的,診斷率可以達到92%之高。

只要有一臺手機,只要看到有一塊皮膚病就可以拍照,馬上可以得到診斷,不需要去看醫生,也不需要去付很多醫藥費。

有誰去看過皮膚病的?去醫院看皮膚病真的很麻煩,有時候要做出診斷,需要好幾個星期,甚至幾個月時間,這樣往往讓病人苦不堪言。

書是2017年寫的,2018年出版,今天我在聽一個電臺節目時,聽到有一個公司,已經提供了這樣的服務:

只要病患拍照發到他們平臺,他們的AI系統就可以告訴病人,現在是否要就醫,還是說是良性的。

有一位女士,看到她男朋友背上長了一些東西,就隨便拍了照片試一下,發給這個平臺,誰料到竟然是惡性的,因為及時就診,她救了自己男朋友一命,而且收費才29美元。


這才是深度學習的本源


這是WAYMO自動駕駛汽車,輿論讓你感覺明天就可以做成,其實要做幾十年時間,因為有很多路況和複雜因素需要攻克和優化。

這輛汽車搭載了很多雷達和感測器,180度的感測器不像我們人類的視覺,只能看前方,它可以有180度的視角。

現在無人駕駛汽車的應用場景非常受限,我們看一下有可能的一些場景——

如果我們能一鍵啟車,就可以提高車輛使用率,如果無人駕駛汽車能夠實現這單,就可以重新規劃停車場和停車道。

因為大量汽車利用率增高,很多車都在路上跑,就不需要那麼多停車場了,我們現在城市裡遍佈的停車場、停車道,都可以再利用,可以變成公園、自行車專道。

當然,這樣很多公司可能就要關門大吉了,就是汽車維修店和汽車保險公司。但是更重要的,這樣可以挽救很多生命:

因為疲勞駕駛是導致事故死亡的重要原因,酒駕、醉駕的事件也很多,每年在高速公路,醉駕導致4萬人死亡。

一鍵啟車最大的便利是可以節省通行時間,尤其是出行高峰的時候,高峰時候堵車是很堵心的,如果我們使用無人駕駛汽車,就都不用開車了。

出行時間可以用來看看報紙,駕駛完全自動且安全,這樣可以極大的降低交通事故死亡率。

我們還可以更進一步暢想,盜車時代會被終結;此外還有一些新的就業崗位生成,很多人說卡車司機要失業了,不會的,我們如果使用無人駕駛的卡車,也要人去控制的。

卡車司機的角色可以轉化為安全監測,這個崗位比開卡車好得多,而且更舒服。

現在無人駕駛汽車仍然不能實現,因為有很多極端路況交通控制,比如說卡車有一些貨物掉在路上怎麼辦?

所以我們還吸收更多的訓練資料,集訓無人卡車,一旦有這種邊緣情況案例出現,我們需要有人監控。

機器是監控不了的,所以我們仍然需要人去監控這些無人駕駛的卡車。

這還這能催生另一個新的產業崗位,感測器技術供應鏈。這是一個全新的供應鏈。

因為我們需要在無人駕駛車輛上邊搭載幾十億個感測器,大量資料生成後,我們需要進行資料清理,這些都會催生很多很好的新工作崗位。

這一個公司——睿金科技——來自中國郟縣,他們是有幾千萬人專門做資料清理的公司。

聽上去是挺煩燥的工作,但是比在“煤礦”上工作更好,其實是資料挖煤,這比在現實中的煤礦挖煤好得多。

接下來舉一個語言翻譯的例子。語言翻譯在中國有幾千個語種,互相不能理解,所以我們訓練機器預計下一個字詞出現,這時候不需要分類資料,是非監督學習。

這種叫做文字嵌入。如果機器能夠訓練得很好,我們期望的是學習內模通過自己的活動運算,可以瞭解和解構整個語義,同時要識別出大寫的專有名詞,非常有趣。

比如說俄羅斯和莫斯科是一組對應關係,這是一個項量,將這個項量依附於德國,則德國對應柏林。這個網路沒有任何監督,就可以發現城市首都的關係和地理位置的關係。

這在之前語言學領域從來沒有做過,機器學習開啟了整個語言學新的理論。

此外,我們機器從翻譯上可以做時域序列解讀,從底層慢慢學習,可以解讀時態,還有語義強度、語氣強度,還有增強機器工作記憶,句頭首詞到句末最後一個詞都可以分析。

現在谷歌翻譯軟體,單字單詞翻譯並不完美,我不想讓大家有誤解,認為這個網路已經可以理解句子的,不是的。但是,它比傳統的翻譯好多了。

之前我們是字對字的硬設,這是行不通的,現在的翻譯軟體某一些語義是可以理解的,聽上去翻譯出來的中文或者英文,還是非常的奇怪,但是語義是通的。

人類語種翻譯是變的,比如說有一個非常有趣的句子:我們的意志力精神,反映我們的意志之力。但這句話從俄語翻譯為英文後,反而離題萬里。所以我們翻譯最重要的是語義翻譯、句義翻譯。

20世紀語言學主要領域主要是詞法上做很多研究,其實語言最重要的就是語義理解、語義解構,詞與詞的關係,這些片語排列完後是怎樣的意思,這是語義。現在人工智慧已經往這個方向深化。

人工智慧驅動的翻譯技術有多麼的神奇,這是我們取得的另一個進展。


這才是深度學習的本源


這是語言網路,有三個語種——英、韓、日,從英語翻譯為韓語、日語都做了實驗,但是還沒有韓語翻譯為日語。

機器在一定程度上通過學習,其實可以韓翻日,也就是說你的訓練更多,語言組越多,訓練得越好,網路就可以更加相通,機器的翻譯就能夠學習得更好。

所以我們這種語言學網路,可以給予我們更多的洞見,可以讓我們更加理解各語種之間的轉化和翻譯機理。

我們大腦在運算的時候,總是需要大腦海馬體和皮層運作,我給大家分享一個概念,就是強化學習:

怎麼樣通過增強學習達成目標?這個模式就是阿爾法狗怎麼打敗柯潔的祕密。

我再分享一點,是最近在無監督學習中的一大突破,前提是需要大量資料組。

我們把網路裡面輸入了很多名人影象,很多都是西方人,為什麼看起來都像名人呢?

這個網路很厲害,它實際上可以生成關於名人的新的影象,之前是沒有存在過的,所有的圖片都是不存在的,只是給出的案例中依據自動生成的,而且可以生成很多影象。

但是這些都不是真實的人,都不是真實存在的,還可以不斷地繼續下去,所以這個例子就向我們展示了未來,生成性的網路。

就像我們的大腦,我們大腦也會不斷生成資訊,我們坐在那裡,就會有各種各樣的想法出現。

現在我們到哪一步了?還是在初期,就好像是萊特兄弟做了第一臺飛機的時候,離噴氣式飛機還有很長一段路要走。


這才是深度學習的本源


我們從自然當中可以學到很多東西,萊特兄弟研究了自然,研究了鳥,然後他們發現:

大自然是這樣解決問題的,而且要解決這些困難的問題並不難,大自然已經會了,大自然中已經蘊含著解開這些奧祕的鑰匙了。

我們還處於很早期的階段,但是也在不斷地進步。非常感謝各位的參與和聆聽,我們還處於人工智慧的早期階段,還有很多問題需要解決。


https://www.toutiao.com/a6722073558840787469/


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2652894/,如需轉載,請註明出處,否則將追究法律責任。

相關文章