2016 Google I/O 第三日剛剛結束了一場《機器學習:谷歌的視角》(Machine Learning:Google's Vision)活動,谷歌搜尋、機器智慧和 Web 工程的高階副總裁 John Giannandrea,高階員工、Google Brain 負責人 Jeff Dean,高階產品總監 Aparna Chennapragada 三位高管分別從產品、研究、開源和公司戰略層面對谷歌的機器學習進行了系統討論。
John Giannandrea|谷歌搜尋、機器智慧和 Web 工程的高階副總裁。其職能是負責監督這些領域的產品和業務開發,也包括帶領該公司長期的科技創新。2010 年,隨著谷歌收購 Metaweb,John 加入谷歌。Metaweb 是他和合夥人 Danny Hillis 聯合創立的公司,他們的技術稱為了谷歌知識圖譜的基礎。在這之前,John 是 Tellme Networks 的聯合創始人和 CTO,該公司在 2007 年被微軟收購。
Jeff Dean|高階員工。1999 年加入谷歌,現在谷歌的一位高階員工。他帶領著谷歌的 Google Brain 團隊,使用大規模的機器學習解決語音識別、計算機視覺、語言理解和其他領域的難題。他也聯合設計/執行了谷歌研究和廣告系統的主要模組,同樣聯合設計/執行了谷歌的分散式計算基礎設施,包括 MapReduce、BigTable、Spanner 和 TensorFlow 系統。1996 年,Jeff 獲得華盛頓大學電腦科學的博士學位。他是美國計算機協會會員、美國國家工程院和美國科學促進會成員。
Aparna Chennapragada|產品管理總監。Aparna Chennapragada 是谷歌產品管理的高階總監。最近,她帶領著 Google Now,推動研究,幫助使用者獲得前瞻性資訊。她是資訊發現的思維和產品領導者,曾在谷歌搜尋和 YouTube 帶頭完成了多項成果。Aparna 曾獲得 MIT 工程管理碩士學位、德州大學奧斯汀分校電腦科學碩士學位、印度馬德拉斯科技大學學士學位。
「此前有人討論過『人工智慧冬天』,我認為我們現在到了『人工智慧春天』。」
主持人:人工智慧和機器學習已經不是什麼新概念了。它們存在已經有一段時間了,我們也開始聽聞了很多關於它們的東西。各大小公司都在努力的開發這個技術。甚至現在還有這麼多人一大早起來聚在一起談論人工智慧的科技。所以,整個領域到底發生著什麼?
John:我認為最近幾年,該領域出現了前所未有的進步,比如說語音識別和影像理解,準確率大幅提升,這主要是由於深度學習的進步。這些不是新技術,但在過去幾年中一些外部因素的結合使其變得更加有效。這使得這方面的研究成果能夠為開發者所用。此前有人討論過「人工智慧冬天」,我認為我們現在到了「人工智慧春天」,我們看到了這個領域的顯著。
主持人:你們研究人工智慧多久了?
John:我們從 10 年前開始研究語音識別等技術,但真正認真的對人工智慧進行大規模投入是在 4 年以前,將我們在這方面的研究有效整合,最終推出了 Tensor Flow 等產品。
主持人:Aparna能否從產品的角度說一下,John 提到機器學習現在更加強大、準確和有用,在你開發產品時,機器學習是否為你開啟了一片新天地?
Aparna:當然!機器學習是一項偉大的技術,它提供了強大的工具箱去幫我們解決實際問題。在產品開發層面,對於我們和其他開發者來說,機器學習從以下兩個方面改變了遊戲規則:
1)機器學習通過大幅度改變技術構件來驅動產品,從而解決了語音識別等很多現存的技術問題,以及改變了現有的產品案例。當技術改善了底層引擎時,產品就會發生質的飛躍並更加好用,所以我們看到了使用者數量的飛速增長。谷歌翻譯就是一個很好的例子,當機器翻譯技術變得更好,谷歌翻譯產品就可以迅速把更多語言包含進來。谷歌 Photos 也是如此,當我們的技術能夠更好的理解圖片內容,標記圖片就變得更加容易,使用者就會發現可以更加方便的去管理他們的照片。
2)更加令人激動的是,機器在開啟新的產品使用案例。
主持人:對於谷歌的產品開發人員來說,Google Brain 作為一個研究團隊在進行一些基礎技術問題的研究,同時也建立了一套底層架構供產品人員使用,能對此解釋一下嗎?
Jeff:產品取得進步要進行大量實驗,並且是越快越好,在這方面花費幾個小時與花費 6 周是完全不同的。我們所做的其中一項工作就是,嘗試建立一個可規模化並且其靈活易用的系統來表達新的機器學習理念,這就是TenseFlow的起源。這在一項內部研發工具,但同時它也足夠強勁,使你能夠將你的產品放到上面進行測試和研究,並將其放入一個產品環境,比如說手機、資料中心、TPU等。這就是一個從研究到產品開發的過程。
主持人:TensorFlow 是非常有價值的工具包,為什麼你要將其免費開源?作為機器學習開源軟體有什麼優勢?它為什麼是免費的?
Jeff:對於這個問題,一開始我們在內部進行了很多爭論,之後我們決定將其開源,它也成為了一個你可以獲得任何你想要東西的工具包。我們這麼做的原因在於,TensorFlow 能夠幫助開發者更快的把機器學習的相關想法變成產品。開發者可以選擇和使用一些現有的東西進行開發。現在,TensorFlow 上有大約 1500 個套件,其實只有 5 個來自 Google,其它的都是開發者們的作品,這就是它的價值所在。開發者們能夠在這個平臺上集思廣益,TensorFlow 能夠使得產品快速孵化和迭代。當一個新套件出現,它能夠迅速被其他開發者們使用和改善,這加速了人工智慧領域裡的想法交流。這就是我們選擇開源的主要原因。
主持人:TensorFlow 目前進展如何?除了那些對機器學習非常熟悉的人,我們現在在談論人人都可以使用機器學習,那些沒有相關背景的人可以使用 TensorFlow 嗎?
Jeff:我認為,人們可以通過多種方式來從享受到機器學習的優勢,少數基礎研究者會開發機器學習演算法,更多的人則是使用現有模型和演算法去解決特定問題,TensorFlow 能夠幫助無機器學習背景的開發者進行產品研發。你可以非常方便的使用平臺自帶的且預先訓練過的 API 。你僅需要將相關資訊和要求輸入到系統中,它就會自動將(擁有機器學習功能的)產品呈現給你。這一功能的實現得益於 TensorFlow 對演算法模型的靈活運用。事實上,不論是 Google StreetView 還是影像識別,許多機器學習產品所使用的模型是相似的,只是用於訓練模型的資料不同而已。同時,TensorFlow 自帶的機器學習教程也非常簡單易懂。開發者可以快速掌握機器學習中最常用的 6-7 個數學模型,實現快速上手。
主持人:TensorFlow 作為一個全新的產品,如何保證它的質量和可靠性?
Aparna:首先,我們意識到保證精確度是十分重要的。拿我的經驗來說,我們在研究 Googel Now 時想到了一點,在一般使用場景下,例如當你使用谷歌搜尋時,如果它給出了你不想要的結果,你可以選擇忽略;但是,如果你的智慧助手給你指了一條錯誤的機場路線以致於你錯過了航班,那麼後果就很嚴重了。所以我認為準確率非常重要,尤其是平臺早期階段。
其次,在任何案例中,你要格外注意在哪些問題上使用機器學習,注意哪些問題對人而言非常困難對機器而言卻很簡單。就是這裡有你想通過機器學習解決的問題,但你不能在沒有預測或在不理解之前就開始做。所以,選擇產品適合的某一部分來實現機器學習,要比全盤推出的效果好得多。
主持人:現在每個人對人機智慧互動格外興奮。週三我們看到了谷歌的 Google Assitant。但其他很多公司也正在做這樣的事。我們確信這能有成效嗎?如何設計一個對話介面,我們都知道些什麼?缺陷和長處又是什麼?
Aparna:建立一個在任何事上都起作用的通用系統非常難。但我還是挺興奮的,我們剛開源了語句解析器 Parsey McParseface 。這真的很令人激動,因為你開始看到對話的開端,至少開始理解自然語句,然後你就有了建築的基石,可能在上面進行建造。
主持人:John,週三時我聽到你說如今美國 20% 的搜尋是語音輸入,你認為會有一種助手介面以一種同樣的方式出現,來幫助解決大量的詢問搜尋?
John:我們認為助手和搜尋是截然不同的產品,而且使用起來也不一樣。我們開發語音搜尋技術很多年了,事實也證明使用者喜歡用語音。這兩個產品的區別是搜尋的深度,以及能夠解答問題的數量和難度。我認為,語言和對話是電腦科學尚未解決的問題之一。試想閱讀一篇文章並寫出簡短的總結,我們目前沒法做到這一點。語法分析器開源和使用 TensorFlow 關係密切,就像 Jeff 所說,類似 Google Photo 的開源產品允許參與操作執行雲版本的程式。我們對自然語言瞭解的態度很類似,還需要很多年投入,才能建立任何內容都可以被理解的自然對話系統。對我們來說,這是個征途。今天,我們有不錯的語音搜尋產品,我們希望下半年釋出Assistant的時候,大家會喜歡它。
主持人:智慧助手的商業模式是怎樣?
John: 我們現在的重點是開發使用者喜歡的產品, 谷歌有開發令大眾收益的產品的歷史。大家喜歡並大規模使用某產品的話,我們會找到相應的商業模式的。
「機器學習尚需探索的領域包括:從自然環境中學習、自己創造演算法模型、舉一反三的能力,以及從小樣本中學習」
主持人: 我們來談談尚未解決的科研問題吧。目前機器學習有驚人進展,不過還是有很大進步空間,能談談機器學習尚需探索的領域嗎?
John&Jeff: 首先, 從自然環境中學習。 三五年前,機器對人類語言的理解還是十分初級的,例如將句子分段等。但是,現在的語言理解已經有了很大進步。然而,如何讓機器從自然環境中學習仍是一個難點。現在我們一般訓練機器的方法是,先給不同事物下定義和貼標籤,然後讓機器從這些已知定義中學習。未來,我們希望能夠讓機器從完全自然的、沒有人工干預的原生環境中學習和總結。
其次,讓機器自己創造演算法模型。 目前為止,研究人員們都需要針對不同問題創造出不同的演算法模型,然後將寫好的模型和引數輸入到機器中,使之進行學習。下一步,我們希望機器能夠自己從資料中學習,並自己創造出合適的模型。然而,如果對所有資料全盤接收的話,效率會十分低下。這就要求機器能夠從海量資料中挑選關鍵部分,來作為生成模型的樣本。而進一步的,這又要求機器能夠判斷什麼是重要的,而什麼不是。這將會成為未來我們努力的方向。
第三,「舉一反三」的能力。 我們希望機器能夠在學習了一塊知識後還能將其遷移,並應用到其它領域和場景中。例如,AlphaGo 所使用的演算法模型和架構能夠在圍棋上打敗世界冠軍,但是如何使之能將同樣的模型應用於其它方面,仍是一個難點。
最後,從小樣本中學習。 如果你在幼兒園裡待過一段時間,你會發現,四五歲的孩子只需要幾次提醒,就能夠知道自己要遵守的行為規範。同樣地,機器學習應當能夠從小樣本中學習。目前,我們需要非常大量的資料來訓練機器模型,這十分耗時,並且受限於許多條件。
主持人:之前 Google 將 14 支機械手臂連在一起進行學習的專案令人印象深刻,Jeff 能再介紹一下嗎?
Jeff:這個專案的由來很有趣。有一天我們經過 Google X 機器人團隊的辦公室,發現有 20 個他們不用的機械臂,於是我們就把它們搬到了我們的辦公室來進行這項實驗。一開始,這些機械手臂只能通過自己的攝像頭所觀察到資訊來嘗試將盒子裡的物品撿起來,但這個過程是很慢的。漸漸地,他們通過互相的資訊共享來學習如何撿起不同物品,就像小孩子經過無數次的嘗試撿起東西一樣。並且,手臂的數量也加速了獲取資訊和資料的速度,從而加速了學習的過程。
主持人:下一代產品需要什麼人工智慧創新?
Aparna:比如說手眼協調,包括通過計算機視覺技術和自然語言處理的結合來指導實際行動,比說在機器人方面的應用。
John:與開放世界互動的機器人將會有新的挑戰需要去解決,這與封閉可控環境下進行的視覺和自然語言處理任務截然不同。
主持人: 最近 DeepMind 在做什麼?
John:DeepMind 目前主要是利用模擬資料進行學習,包括模擬遊戲或真實物理系統。(注:當被問到 DeepMind 是否在做機器人時,John 迴避了這個問題)。
主持人:John 剛才提到了「人工智慧春天」以及過去的「人工智慧冬天」,你們認為「人工智慧夏天」何時到來?
John:在我看來,語言處理的進步會成為非常重要的里程碑。目前,語言處理仍舊是一大難點。但是,如果有一天,機器能夠真正地閱讀和理解文字,並將內容內化,那將是非常大的進步。比如,做到用英語解釋英語——也就是改寫句子,那麼這說明它能夠真正地理解文字的內容,這有可能通過使用某種自然語言處理的 API 來實現,也可能通過別的方法。總之,當我們解決了語言和對話問題,當計算機可以真正理解文字的內容時。
Jeff:我認為並不會有一個鮮明的分界線,因為人工智慧的進步是循序漸進的,而且人們對人工智慧的認識和期望也在不停的發生改變,所以我們也很難預測。如果你在四年前問我,機器能夠對圖片寫出合適的語句嗎?我可能會覺得短時間內我們無法做到這一點。而現在,這一功能已經實現。同時,我也感覺到,目前人們對人工智慧的認知仍有些過分誇大,我們需要冷靜下來,理智地思考人工智慧的發展。
主持人:既然無法預料,你怎麼知道不會是又一個冬天?
John: 只要我們一直在取得進步。近年來正是因為進步太快,才導致了媒體的誇大宣傳。
主持人: 在你們眼裡,谷歌現在提出的 AI first 意味著什麼?
Aparna: 像之前的Mobile first一樣,AI First 意味著全棧的革新,從底層的計算基礎設施TPU,到中層演算法和模型,再到高層的介面。
John:AI first 就是無處不在的智慧助手。
「Google 一直在使用機器學習來投放廣告。我們認為,廣告必須要符合使用者個性化的需求。如果一個廣告對使用者而言是完全沒有用的話,那還不如不要放這個廣告。這一直是我們堅信的投放廣告的原則。」
觀眾問答環節
問:「偏見」也是人類思維的一種,你覺得它應該成為人工智慧也應該擁有這種思維嗎?社會將如何接受這件事呢?
John:如果你指的是人工智慧可能出現的「偏見」或者「歧視」問題的話,我得承認這確實是一個潛在的風險。出現「偏見」與否,很大程度上取決於我們所選取的訓練樣本,在已有的實驗中也確實出現了這樣的問題。所以,開發人員一定要在選取訓練樣本上十分謹慎,尤其是對於監督式學習模型來說。
問:谷歌利用大量的使用者資料來訓練機器學習模型,那麼在這過程中如何保證這些資料的隱私安全?當我把照片上傳到 Google Photos 後,它們去向了哪裡,又是如何被保護的?
Aparna:隱私保護是我們在所有產品研發過程中,都極其重視的一項內容,不論是 Google Photos、Google Now 還是其它產品。我們有兩個用以構建隱私保護系統的原則。一個是與使用者與產品間的一份完全透明的協議。使用者有全權知曉,這項產品會如何利用資料來改善服務質量。第二,在預設情況下,系統會獲得部分資訊。例如,當你在開車的時候,你需要授權系統獲取你的位置資訊——你總不會想讓系統以為你是從地球的另一端出發的。所以,通過這個透明且部分預設協議,使用者的隱私效能得到有效的保護。並且,對於這些個人資訊的使用,也只有你自己能看到。你的資料只能是你自己的,這是底線。
John:我們用於訓練模型的資料,並不是來源於使用者的個人資料庫。機器能夠識別你的圖片,但這不代表我們能夠獲得它們的資訊。
問:(追問)有沒有可能,谷歌團隊會利用使用者上傳的海量個人資訊,來向贊助商匿名推薦相關的消費群體?比如,你能從我的照片知道我是一個喜歡狗的人,
John & Aparna:這是絕對不會發生的。
問: 如何從技術研發走向產品生產?這背後的思維模式是怎樣的?
Aparna:由於無法大篇幅地向你介紹,我在這裡精簡地解釋一下。首先,與之前 Jeff 談到的相似,要選擇那些對於人類很難而對於機器相對容易的任務。人工智慧與機器學習的強大結合,也無法解決不存在的問題。所以,選擇合適的問題是很重要的。我就見過許多因為錯誤的選擇而失敗的例子,不論是在 Google 內部還是其它地方。其次,構建一個能夠不斷迭代的模型也是很重要的。最開始,你應該僅在很小的範圍內進行測試。拿旅行應用來說,你可以列出旅行者們最需要解決的 5 個問題,然後再挑選有價值的專案進行擴充套件。
Jeff:一般而言,我們在實驗室裡進行研究。當我們發現一個具有應用前景的研究時,我們會通過產品展示等方式,在內部分享給產品部門,並強調我們認為比較重要的特性,這樣產品部門能夠知道哪些地方是值得關注的。
問:近期,對於人工智慧威脅論的討論十分火熱,伊隆 · 馬斯克還將人工智慧比喻為「召喚惡魔」。你們是怎麼認為的?你們會如何通過產品展示,使公眾重拾對人工智慧的信任呢?
John:我對這個問題也很感興趣。不過,機器學習現在做的,只是以一種更復雜的方式來更好地幫助人們。如果要舉例的話,當你使用 Google 的產品搜尋一個地點時,比如一個咖啡店,它能通過獲取相關資訊,告訴你這家店的忙碌時段。這就是現在機器學習能做到的最「高階」的事情了——並且,對於我來說,這沒有什麼嚇人的地方。所以,確實存在著對人工智慧的過分誇大和想象,而這些威脅論往往與真正的機器學習應用相去甚遠。
問:在廣告推送方面,Google 能否通過機器學習,向使用者展示更個性化的廣告,甚至結合同一產品的不同廣告,來提高對使用者的吸引力以及實用程度?
Jeff:機器學習確實有許多能夠與廣告運作相結合的地方。事實上,過去十多年間,Google 一直在使用機器學習來投放廣告。我們認為,廣告必須要符合使用者個性化的需求。如果一個廣告對使用者而言是完全沒有用的話,那還不如不要放這個廣告。這一直是我們堅信的投放廣告的原則。其它很多網站還沒有類似的智慧推送特性,但是我們相信,在這方面機器學習還有很大的發展空間。最終,使用者們最看到更少的,但卻更有用的廣告。
問:(追問)那麼使用者如何能夠知道,某一個推薦是人工智慧篩選的結果,還是贊助商的投放廣告?
Jeff:我們會清清楚楚地告訴使用者,哪些是廣告,哪些不是。大概而言,即使是廣告推送,也是系統智慧篩選之後的結果。我們不會生硬地把任何一個贊助商的廣告扔到使用者面前。我們總是會先計算一個廣告是否會對使用者有用,然後再決定是否推送它。
問:(追問)那麼,比如,Google Home 是否會推薦贊助商的餐廳?
John:Google Home 還沒有進入市場,很多功能有待完善和最終敲定。但是,我們會始終清楚地劃分廣告內容和其它搜尋結果。
問:很欣賞 Google Brain 的工作,請問它扮演了一個什麼樣的角色?它和人們談論的「奇點」又有怎樣的關係?
Jeff:我們這個團隊的主要任務是,研發更高階的方法,以解決人工智慧中的難題,並且我們在不斷地挑戰更高的目標。而這一切的實現需要許多方面的努力。我們需要構建更好用的底層部件,例如 TPU;或者使用類似 TensorFlow 的工具,設計正確的系統架構。很多時候,我們所研究的機器學習方法離使用者是很遠的,而我們需要找出它們有價值的地方,並考慮如何將之應用於不同的領域。
我對「奇點臨近」這一說法不怎麼相信,所有的「指數函式」在一開始看起來都像指數函式,但發展到後面卻完全不是一回事。
問:現在看來,Google Home 和 Google Assistant 這兩個產品本質上是一個平臺,而且還是結合了許多其它 Google 產品的平臺,例如 Knowledge Graph 和 Google Cloud Speech 等等。這是 Google 的本意嗎?讓它們成為一個平臺,是的其它製造商能夠將其整合到自己的產品中?
John:我們的許多機器學習 API,確實都已經被轉移到了雲平臺上,從而人們能夠在其它產品開發中使用它們。目前,很多公司就在使用我們的產品,例如 Google Translate API,Cloud Speech API 等等。