它將是你的第二大腦——長文講述谷歌深度學習的故事

PSI內容合夥人發表於2015-08-26

Geoffrey Hiton說:“我需要了解一下你的背景,你有理科學位嗎?”

Hiton站在位於加利福尼亞山景城谷歌園區辦公室的一塊白板前,2013年他以傑出研究者身份加入這家公司。Hiton也許是全世界研究神經網路系統最早的專家,在1980年代中期,他就是人工智慧技術的先驅(他提到在16歲時就開始思考神經網路)。自那時起,以模擬人腦為原理的神經網路被認為是一種在處理計算機視覺和自然語言等棘手問題方面很有前途的方法。但漸漸有人失去了等待的耐心,人們開始質疑是否應該繼續下去。

1-KYLrhDHqAAdQaJiN1G4ytA (1) 

Geoff Hinton

大約十年前,在多倫多大學Hinton的實驗室,他和其他研究者取得了一項突破性進展,突然使神經網路成為人工智慧領域最熱門的話題。不僅是谷歌,還有一些其他公司,比如,Facebook、Microsoft和IBM都開始瘋狂追求這個領域中為數不多的科學家,他們精通於建立多層模擬神經元結構以使整個系統能夠被訓練,或者進行自我訓練,然後來預測隨機輸入值的相干性。這更像是一個嬰兒,他學著對那些湧入到其初始感官的資料進行組織。這種新的、有效的處理方式被稱作深度學習,一些長期計算難題(比如說計算機“觀看”和“聽到”的能力等)得以解決。我們翹首期盼的擁有智慧的計算機系統突然出現在我們面前,此後谷歌搜尋將會變得更加好用。


1-hiFIFj8J1wA_CuC5ndUZCw

Dr. Hinton’s

深度學習的突破對谷歌搜尋的下一次跨越式發展極其關鍵:理解真實世界,在為使用者提供準確答案和資訊方面向前邁出一大步。為保持搜尋的活力,谷歌必須變得更加聰明。

這正中谷歌下懷。在公司早些年,創始人就認定谷歌是一家人工智慧公司。它不僅將人工智慧用於搜尋——儘管它的搜尋引擎與人工智慧正相關——還用於廣告系統、自動駕駛汽車,以及將奈米顆粒注入人體血管來進行早期疾病監測的計劃中。正如Larry Page在2002年告訴我的:

“我們不總是生產人們想要的東西,這才是我們工作的難點所在。要實現這個目標,你必須足夠聰明,你要了解世界萬物,你必須懂得去質疑。我們正在嘗試的就是人工智慧——最終搜尋引擎會很聰明,因此,我們正在努力接近這個目標。”

當Geoffrey Hiton實現這個突破時,谷歌已經做好準備走上這條道路。多年以來,公司一直通過使用機器學習這種更傳統的方式來使搜尋引擎變得更加強大,而且在這方面遙遙領先。曾經有幾年,公司僱傭了一群人工智慧工程師和科學家,他們使搜尋引擎像synonyms一樣學習。當數百萬使用者用到一個可以進行替換的詞語(比如,dog和puppy)時,谷歌能迅速利用知識來更好的理解問題。當谷歌承擔網站翻譯工作時,它的科學家們會將儲備的大量翻譯過的文件和來源放入系統。這樣,谷歌搜尋引擎就“學會”瞭如何將一種語言匹配到另一種。

深度學習現在被視為能夠超越那些更加直接的機器學習的關鍵一步。它基於人腦結構,它的追隨者聲稱,之前基於計算機特性實現智慧幾乎是不可能的——至少非常難,但深度學習為其提供了發射臺。這就是為什麼Hinton的突破會對谷歌如此重要,對於其他有搜尋或類似業務的公司也是如此。過去幾年,谷歌一直努力將搜尋引擎塑造成吸引討論的話題。但真正使計算機獲得初級的、人類般的智慧還是需要對人工智慧的前沿研究進行擴充套件,深度學習就是這樣一個能夠完成這項任務的當下最流行的工具。

神經網路是對生物上大腦學習方式進行建模。當你嘗試進行一個新任務時,一系列特定的神經元集合會被啟用。你觀察到結果,接下來利用反饋來調整哪些神經元應該被啟用,以此來訓練大腦。多次之後,一些神經元之間的聯絡將變強而另外一些則變弱,這就形成了記憶的基礎。

模擬神經網路以編碼方式在本質上覆制了這一過程。但比起復制人腦複雜的神經元結構,模擬神經網路更小,神經元也是整齊的分層排列。第一層(或者最初基層)是特徵探測,一種人類感官的計算形態。當計算機將資料輸入到神經網路——比如說影像、語言或文字檔案的資料庫——系統通過檢測其中的特徵值來進行學習。例如,如果任務是識別垃圾郵件,神經網路研究者可能會將許多資訊輸入到系統,同時貼上“垃圾郵件”及“非垃圾郵件”標籤。神經網路將自動察覺到一些單詞的複雜特徵、模式,以及能夠確定該郵件是否為垃圾郵件的標題資訊。

在早期神經網路實驗中,計算機不能自己設計特徵,因此這些特徵需要人工新增。Hinton的開創性貢獻是開發了一種被稱作“Back Propagation(反向傳播演算法)”的技術,這是一種反饋機制,它允許系統更加有效的從錯誤中學習以及自己定義特徵。“追溯到1986年,我們首次開發出Back Propagation演算法,我們因其能學習到多層的特徵探測而感到興奮,我們認為我們解決了這個問題。” Hinton說,“但在解決實際問題中卻沒有出現大的突破,這非常令人失望,我們完全猜錯了需要的計算資源和標記案例數量。”

但是,即使多年來許多研究員不再信仰神經網路,但Hinton依然強烈感覺到它們會有實用價值。1995年,他和他的學生嘗試著放棄手動新增標籤,至少是學習過程的早期階段,這項技術被稱作“unsupervised pre-training”,是指該系統可以計算出如何自行組織輸入值。但Hinton說完成這項工作的核心是數學技巧,一種節約計算時間的近似法,當資訊通過各層神經元時將會引發更多次迭代來改善網路。如經常遇到的,速度能夠變化,這使得之前神經網路無法完成的“學習”行為成為可能。就像是一個人突然冷靜下來說,我能用10分鐘完成5個小時的滑雪練習。

伴隨著無監控學習的出現,人類專家只需要在更加後面的階段對機器進行干預,他們是為更想要的結果新增標籤併為成功的結果提供獎勵。Hinton說:“想象一下小孩子,當他們學著辨認牛時,並並需要去看幾百萬張媽媽們標記上‘牛’的圖片,他們僅僅是學習牛的樣子,然後問到:‘這是什麼?’ 媽媽會說:‘這是一頭牛’,他們就學會了。深度學習就類似於這樣。

等到Hinton團隊對這一模型進行測試時,他們恰好收益於神經網路初創時尚不具備的條件——超高速圖形處理器(GPU)。儘管這些晶片設計之初是用於推導高階影像的計算公式,但它們也非常適用於神經網路的計算需求。Hinton為實驗室購置了一堆圖形處理器,讓兩個學生來操作該系統。他們進行了一項測試來觀察是否能讓神經網路識別講話中的音素。這自然是許多科技公司——當然,也包括谷歌——試圖掌握的技術。因為語音會成為即將到來的移動時代的輸入方式,電腦必須學會更好地傾聽。

系統表現如何呢?

“他們取得了令人激動的結果,” 辛頓表示,“最初結果幾乎和當時技術一樣出色,而後者已經除錯發展了近30年,很顯然,如果在最開始嘗試中我們取得那麼好的結果,我們最終的結果會更好。” 在接下來幾年中,Hinton團隊進行了更多嚴肅的嘗試。等到結果釋出時,Hinton稱系統已經能與現存商用模型的最佳表現比肩。“關鍵是,這是實驗室兩個學生做出來的。”他說。

深度學習就此誕生。

2007年,專案進行過程中,Hinton在山景城進行了關於深度學習的谷歌技術演講,極客們踴躍出席,這一演講在YouTube上也大受歡迎。這有助於傳播這樣的理念,即神經網路將成為一個強大工具。這還掀起了一波爭先恐後僱傭該領域技術專業的浪潮。Hinton的學生去了IBM、微軟,當然還有谷歌。這可是攻堅該領域的四大公司中的三家(還有一家是Nuance,它是蘋果的技術供應商)。所有人都能自由使用Hinton實驗室的成果用以完善各自系統。“我們基本上對此毫無保留,因為我們著眼於證明我們技術的優勢。” Hinton表示,“有趣的是,微軟研究院和IBM先於谷歌得到這項技術,但是在將技術轉變成產品方面谷歌卻比任何人都迅速。”

Hinton的加入只是谷歌那一季一系列重大聘任之一。就在幾個月前,人工智慧的樂觀主義哲學家Ray Kurzweil剛剛加入包括Peter Norvig(編寫了人工智慧課程的標準教科書)、Sebastian Thrun (自動駕駛汽車的主要發明者)等人工智慧傳奇人物在內的團隊。

當下谷歌醉心於深度學習,顯然是認為這將引發下一代搜尋的重大突破。移動計算的出現已經迫使谷歌改變搜尋引擎的本質特徵。為了更進一步,它必須採取和人類認知世界相一致的方式——當然另一方面也要執行知曉世間一切並且在不到半秒鐘找到這些的非凡任務。所以, Jeff Dean參與進來是遲早的事情。

Dean是谷歌的傳奇人物。早在1999年加入谷歌時,他在電腦科學圈子裡就已經聲名遠揚,聘任Dean是谷歌的一個里程碑,彼時谷歌還是個員工只有兩位數相對默默無聞的網際網路公司。在接下來的幾年裡,Dean成為構建谷歌軟體基礎構架的領軍人物。在這一過程中,Dean粉們組建了一個極客團體,他們用惡惡搞來表達對Dean耀眼才華的崇敬,叫「關於 Jeff Dean的真相」。其中大多數都涉及超級極客的編碼奧祕,但也有些相對容易理解的,比如:

  • Jeff Dean能在四子連珠中打敗你。只需要三步。

  • 某天 Jeff Dean出門時誤將Etch-a-Sketch(一種畫板,使用者通過控制兩個旋鈕來控制畫筆在畫板上的移動)當做膝上型電腦了。在他回家取膝上型電腦的路上,他對畫板進行了程式設計用其來玩俄羅斯方塊。

  • Jeff Dean仍在等待數學家們解開他藏在數字π中的笑話。

現年46歲的Dean早已知曉神經網路,他在本科論文專案就曾應用過它。然而在隨後的幾年,他和大部分同行得出了相似的結論:神經網路的黃金時期尚未到來。“神經網路前途無量,但因為我們尚沒有足夠的計算能力使其一鳴驚人,神經網路一度銷聲匿跡。" Dean說到。不過在2011年, Jeff Dean在谷歌一間茶水間遇見了吳恩達(Andrew Ng)。吳恩達是史丹佛的人工智慧教授,人工智慧領域的巨擘,他每週會花上一天時間呆在這家搜尋引擎公司。Dean問吳恩達在忙些什麼,吳恩達的回答令他大吃一驚——“我們在試圖訓練神經網路”。吳恩達告訴Dean,風頭已變,伴隨著深度學習領域的突破,神經網路表現頗佳,如果谷歌能掌握訓練大型網路的技巧,會發生奇蹟


1-PunzQrX6WNEr_FWdrAx-Gg

Jeff Dean

Dean認為這聽上去很有意思,在“涉足”六個月後開始相信,建立一個龐大神經網路系統能夠很快取得實質性成果。因此他和吳恩達將其變成了一個獨立專案。(吳恩達已經離開谷歌,就在最近加入了百度,以發展中國搜尋引擎領導者——百度自己的人工智慧專案。)

大約用了一年時間,該專案俗稱為“谷歌大腦”,立項於Google X——谷歌公司高瞻遠矚的研究部門。“這是我們內部開玩笑的叫法,我們儘量不這麼對外宣稱,畢竟聽起來有點奇怪”,Dean說。2012年,研究積累了一定成果後,專案組走出了純試驗部門——Google X ,轉移到搜尋部門。專案組也開始避免使用“大腦”一詞。在對外宣傳中,他們更青睞“谷歌深度學習專案”這個名字,雖然這個名稱聽起來沒有“大腦”有深意,但這也不太可能導致有人在Googleplex(谷歌總部)門前示威抗議。

Dean表示,專案組最開始嘗試的是無監督學習(unsupervised learning),因為“這個世界上監控外的資料遠多於監控下的資料”。這反映在Dean專案組的第一篇論文中,在這項實驗中谷歌大腦(覆蓋了1.6萬個多個微處理器,建立了一個有數十億連線的神經網路)觀看了千萬數量級的YouTube影像,以試圖觀察該系統能否學會將其所見到的定義出來。沒有發生意外,有賴於YouTube的內容,該系統自發辨識出了貓,並且相當擅長於許多普通使用者通常會做的事情——搜尋貓科動物明星的視訊。“在訓練中,我們從未告訴它(谷歌大腦)‘這是一隻貓’”,Dean告訴《紐約時報》,“基本上可以說,它發明了貓這個概念。”

而這只是觀察系統能做些什麼的測試之一。很快,深度學習專案組建了一個更加強大的神經網路,並且開始承擔類似語音識別的任務。“我們的研究專案集合相當棒,在一些中短期專案中,系統對事物的超凡理解能力能迅速提升產品效能。還有一些中長期目標,對此我們腦海裡沒有一個具體的產品,但是我們知道這些將會非常有用。”

在我訪談Dean後不久,一個例子就出現了,4位谷歌深度學習科學家發表了一篇名為《展示與講述》的論文。這不僅標誌著一個科學突破,更催生了谷歌搜尋旗下的一個應用。這篇論文介紹了“神經圖片標題生成器”(neural image caption generator,NIC ),旨在沒有人類介入的情況下為圖片列示標題。可以說這個系統充當了報紙的圖片編輯。這是一項包含視覺和語言的大型實驗。這個系統的非凡之處在於,它將視覺化圖片的學習系統建立在能夠用自然語言造句的神經網路基礎之上。

沒有人會說這個系統已經擁有了優於人類的照片分類能力。事實上,如果僱一個基於該神經網路的人為照片寫標題的話,這個網路新手可能都堅持不到午餐時間。可是這個系統在機器上卻執行的出奇出色。其中一些無比準確的例子包括:一群正在玩飛盤遊戲的年輕人;一個正在泥濘路上騎著摩托的人;一群正穿過乾旱草地的大象。系統可以對飛盤、馬路和一群大象生成自己的概念,這足以令人印象深刻。所以,當這個系統錯把極限運動的單車騎士當成滑板者;或者錯把淡黃色的跑車認成了校車,也是無可厚非的。畢竟這個系統還處於認識繁雜世界的萌芽期。

這只是“谷歌大腦”的起始階段,Dean不打算對外宣稱說谷歌已經擁有了世界上最大的神經網路系統,但是他承認,這是他所知道的這個領域裡面的領先者。 Hinton的被僱傭以及Dean的聰明才智是公司推進深度學習的重要舉措之一,而其中最重要的非2013年穀歌花費4億美元收購Deepmind莫屬,這是一家倫敦的人工智慧公司。基於對大腦的深度研究,這家公司對於深度學習有著自己的獨到見解。谷歌擊敗了它的主要競爭對手完成此次收購。正如谷歌當年花17億美元買下YouTube,和曾經花5000萬美元買下羽翼未豐的開源移動作業系統安卓,我們有充分理由相信Deepmind是谷歌撿的另一個大便宜。

CEO和創始人之一的Demis Hassabis是一個滿頭黑髮,矮小結實的38歲男人。思路敏捷,語速之快就像播客以兩倍速快進播放。“我整個事業都是在為人工智慧做準備和鋪墊,”他在倫敦市中心高聳的總部大樓裡休息時說到,總部大樓坐落在St Pancras火車站旁。Deepmind剛剛從Bloomsbury的一幢不起眼的寫字樓入駐這棟新大樓。這棟大樓之不尋常是因為它挨著一家老醫院的副樓而建,有點時空穿越的不和諧感。大樓裡的會議廳都是以一些著名哲學家、作家和畫家命名,因為這些他們代表著是人類智慧的巨大飛躍,比如達芬奇、哥德爾、瑪麗 雪萊。這個團隊最近開始接手兩家由Deepmind收購的以牛津大學作為實驗基地的公司。一個是Dark Blue Labs,運用深度學習來解決自然語言理解問題;另外一家Vision Factory,其開發物體識別技術。

Hassabis 在14歲時就是個狂熱的電腦遊戲程式設計者,同時也是象棋天才,師從遊戲大師Peter Molyneux,在《黑與白》和《主題公園》里程碑作品中起到了重要作用。隨後在二十幾歲時開始運營自己的遊戲公司,有大約60名員工。但是他說遊戲是一種達到目的的方式,而這個目的是一個擁有通用智慧的人工智慧機器的發展。直到2004年,他覺得他已經把遊戲智慧做到極致了,可是建立人工智慧公司還是有些操之過急,因為他所需要的計算能力既不充足,也不划算。所以他在英國倫敦大學學院修了一個認知神經科學的博士學位。

2007年,有一篇關於記憶神經基礎的論文被《Science》評為年度十大突破之一,他是作者之一。他成為倫敦大學學院Gatsby Computational Neuroscience Unit的一員,並與UCL,MIT和Harvard展開合作。但在2010年,他覺得是時候成立一個做高階人工智慧的公司了,他和蓋茨比計算神經科學組的同事Shane Legg以及19歲就從劍橋輟學的連續創業家Mustafa Suleyman一起著手創立。投資者還包括Peter Theil的Founders Fund和Elon Musk(他對後來對人工智慧的不足表示過擔憂),Geoffrey Hinton也是顧問之一。

DeepMind一直祕密執行,在谷歌收購之前只有一次公開的結果釋出。這足以引發一場炒作狂潮,同時也伴隨著一些無知的嘲笑。論文表述了DeepMind在通過被動訓練神經網路來玩Atari遊戲方面的成功。神經網路系統通過自身深度學習來學習遊戲規則——系統直接嘗試百萬遍Pong, Space Invaders, Beam Rider和其他經典遊戲,通過自學達到甚至超越了一個精通遊戲的青少年。更有趣的是,它許多成功的策略都是人類無法想象的。“這就是此類技術的一個特殊潛能,” Hassabis說,“我們灌輸給它一種能力使它像人類一樣從經驗中自我學習,因此,它就能自行處理那些我們都不知道該如何程式設計的事情。看到它想出了程式之外的Atari遊戲的新策略,這非常令人激動。”

這朝著Hassabis的偉大目標又前進了一小步,他想象中的模擬大腦不僅知道大量事實,還知道接下來該怎麼做。DeepMind絕不滿足於開發一種只能應用在有限領域的工具,就像Atari遊戲、通勤或者處理約會。他們想創造一種通行的人工智慧機器,可以隨時隨地處理資訊,並將每件事情都完成的非常漂亮。“我們現在所研究的通行人工智慧是指將非結構化資訊轉化成有用的、可行動的知識,” 他說,“我們有模板——人類大腦。我們會繫鞋帶、騎自行車、會處理建築的物理學問題。所以我們知道這是可能的,並且我們研究專案的理念正在慢慢的拓寬現有的應用領域。”這聽起來是否令人害怕?Hassabis正在展望一種超級人工大腦,它能夠吸收全世界的資訊並將其構造成它能理解的形式,然後採取行動?至少他承認,他們團隊所引領的這項先進技術可能會導致一個問題——人工智慧脫離人類控制,或至少會變得足夠強大,以至於它的某些功能會被限制。這就是為什麼在谷歌收購DeepMind之後,Hassabis和其他創始人要求谷歌設立一個外部諮詢委員會來監控公司在人工智慧方面的進步。DeepMind早已決定永遠不會將自己的技術授權給軍方和間諜組織,他們也讓谷歌同意了這一點。

遺憾的是Hassabis並沒有透露委員會的組成人員,他只提到“由計算機、神經科學和機器學習領域的頂級教授組成。” 因為DeepMind的工作依然處於早期——離所謂的“奇點”還早——他告訴我們現在沒有必要把委員會成員公佈出來。他說:“當前不存在的議題有可能會在未來5年或者10年出現。因此,事實上,遊戲剛剛開始。”

但遊戲進展飛快。去年秋天,DeepMind公佈的另一篇論文描述了他們的一個新專案,通過綜合一些神經科學裡的記憶理論來構建一個配備圖靈機效能的神經網路,就像是通用計算裝置。這意味著該系統在足夠的時間和記憶體下能夠計算任何事情。論文重點關注實際應用:記錄資訊並隨後提取的能力——就像是對人類大腦“工作記憶”的人工模擬——“神經網路圖靈機”比此前的神經網路有更快的學習能力,能夠處理更加複雜的任務,更重要是是“擁有在訓練制度之外的良好的概括能力”。這不經讓我們感到,向著Hassabis那個夢想中的通用人工智慧工具又邁出了關鍵一步。

事實上,到目前為止,谷歌深度學習的成果都還未在搜尋及其他產品上大展拳腳。但這一點即將改變。

自從Jeff Dean深度學習專案的研究方向從Google X轉移到Knowledge部門(包括搜尋)之後,他的小組就一直和一些相關的搜尋團隊進行著密切合作,包括語言和影像識別。谷歌大腦已經成為該公司的一個人工智慧工具。Dean說道,這就像一個內部服務,如果小組的人對某個特定問題感興趣,他們會通過它找到正確的解決方法。他接著說到,谷歌現在有35到40個小組在使用它,除了搜尋和語言,這項技術在廣告、街景和自動駕駛方面都有應用。


1-Zugdaq4ZnKr1-D5rgXGtxg

Jeff Dean

至於遠期專案,Dean談到他們正嘗試做一個更好的實時翻譯軟體,這是近段時間的熱點,除了當前谷歌獲得高度關注的系統外,微軟的Skype同樣使觀察者印象深刻,這一系統通過遠端聲音完成翻譯。但是Dean還是為自己團隊通過努力推動專案向前發展感到興奮。他說,這是一個僅通過神經網路就可以實現首尾相連語言翻譯的模型,你可以訓練一對用兩種語言表達但意義一致的句子。拿英語和法語來說,你一個詞一個詞的輸入英語句子,然後通過一個“英語結束”的標記,這個模型會馬上將其翻譯成法語。

Dean在神經模型和谷歌現有系統之間進行了深入比較,結果表明他的新的深度學習系統在識別語音細節方面更勝一籌,而這被認為是語義表達的關鍵。Dean表示:“如果對這項技術進行擴充套件,未來可以做更震撼的事情。”

DeepMind同樣為產品化做好了準備。Hassabis說大概需要六個月左右的時間,他們的技術就可以找到和谷歌產品實現對接的途徑。他的組織被分成了幾部門,其中一個和谷歌緊密合作,致力於人工智慧的實際應用,該部門由它的聯合創始人Mustafa Suleyman負責。

Hassabis希望DeepMind的技術能幫助人們提高生活水平。他相信一個更具積極主動性的搜尋引擎——不只為人們提供答案,更能幫人們做決定——可能成為價值的提供者,它將為人們提供最為寶貴和稀缺的商品——時間。Hassabis舉例說世界上可能找到的有趣的書與人有限的一生中能夠讀完的書相比要多很多,既然如此,為什麼每次在一個漫長的飛行途中或在某地的難得度假當中都要去想該讀哪本書?這將永遠不會發生,因為很多類似的事情將更好的實現自動化。

沿著這個思路,Hassabis設想DeepMind能夠通過自己的方式涉足谷歌更多有開創性意義的專案,比如自動駕駛汽車,甚至Calico---一個致力於延長人類壽命的公司。

最終,Deepmind、谷歌大腦連同Hinton的深度學習小組將共同組成谷歌搜尋,這才是最重要的。許多年前,Larry Page 和Sergey Brin曾經半開玩笑的說,語音將被植入我們的大腦,然而現在已經沒人再討論植入了。谷歌並不是通過開發人類大腦來讓搜尋變的更好,他們是在建造一個只屬於它自身的、獨一無二的大腦。

本文原載Medium <BACKCHANNEL>,作者Steven Levy,由機器之心獨家翻譯出品,參與人員:赤龍飛、lossalmoner、補、電子羊、泥泥劉、小勺、趙雲峰。

相關文章