Google I/O 2022: 促進知識和計算機技術發展

Android開發者發表於2022-05-13

2022年5月12日

大約在 24 年前,Google 由兩名研究生創立,當時 Google 擁有一個產品,以及一個遠大的使命:整合全球資訊,供大眾使用,使人人受益。在那之後的幾十年裡,我們一直在推進我們的技術來實現這一使命。

我們所取得的進步源於我們多年來對先進技術的投入,從人工智慧到為這一切提供動力的技術基礎設施。每年一次,在我一年中最喜歡的一天:) 我們在 Google I/O 與大家分享最新進展。

今天,我談到了我們如何提高我們使命的兩個基本方面——知識和計算的發展——來創造能夠提供幫助的產品。開發這些產品是令人興奮的;更令人興奮的是看到這些產品能夠幫助大家做些什麼。

感謝所有幫助我們完成這項工作的人,尤其是 Google 的同事們。我們很感激有這次機會。

- Sundar

以下是 Sundar Pichai 在今天的 Google I/O 開發者大會開幕式上發表的主題演講全文。

大家好,歡迎大家!時隔三年,能再回到海岸線圓形劇場的感覺真好!我想對成千上萬的開發者、合作伙伴和 Google 的同事們說:“很高興見到大家”,也想對在世界各地收看此次大會的數百萬觀眾朋友們說,“很高興大家能來”。

去年,我們分享了在一些最具技術性挑戰的電腦科學領域中的新突破,以及這些突破如何能讓 Google 的產品在關鍵時刻發揮更大作用。我們做的這一切都是為了實現 Google 永恆的使命:整合全球資訊,供大眾使用,使人人受益。

我也迫不及待地想給大家展示 Google 是如何通過兩種關鍵方式來推進這一使命的實現:其一,深化我們對資訊的理解,從而將資訊轉化為知識;其二,推動計算機技術發展,不論大家身在何處,都能方便快捷地獲取資訊和知識。

今天,大家將看到我們在上述兩種方式上取得的進展,以及這些進展是怎樣確保 Google 的產品能夠惠及大眾。我先舉幾個簡單的例子。在新冠疫情期間,Google 一直致力於提供準確的資訊,幫助大家保持健康。去年,有近 20 億次搜尋是使用 Google Search 和 Google Maps 來尋找疫苗接種點的。

去年,Google 的洪水預測技術向在印度及孟加拉國的 2300 萬人傳送了洪水預警

我們還提升了 Google 的洪水預測技術,能讓面臨自然災害的人們平安無恙。在去年的季風季,我們向在印度及孟加拉國的 2300 多萬人傳送了洪水預警。據我們估計,這幫助了成千上萬的人及時疏散。

Google 翻譯新增了 24 種語言

在世界各國,Google 翻譯已經成為了外來客與當地居民互相溝通的重要工具。

通過機器學習技術,我們給 Google 翻譯新增了包括蓋丘亞語在內的新語種

實時翻譯的存在證實了知識和計算機技術能夠一起讓人們的生活更加美好。現在,使用 Google 翻譯的人數之多,遠超以往,但我們不能止步於此,還應讓 Google 翻譯更加普及。現在還有很多語言在網際網路上出現得沒有那麼頻繁,翻譯這些語言是一個技術難題,因為用來訓練翻譯模型的文字通常是雙語文字,像是同一個短語的英語和西班牙語版本,但並非所有語言都有足量的公開雙語文字。

因此,隨著機器學習的進步,我們開發了一種單語方式,能讓翻譯模型在從未見過某種新語言的直譯版本的情況下,直接去學習翻譯此新語言。通過與母語人士及當地機構合作,我們發現用單語方式進行的翻譯質量達標,我們也將進一步提升翻譯質量。

我們為 Google 翻譯新增了24種新語言

今天,我很激動地宣佈,我們為 Google 翻譯新增了 24 種新語言,包括首批增加的美洲原住民語言。共計有 3 億多人在使用這 24 種語言,這樣的突破正在推動我們獲取知識和使用電腦的方式發生根本性轉變。

Google Maps 新升級

許多關於我們這個世界的可知資訊都超越了語言的範疇——它們存在於我們周圍的物理和地理空間中。超過 15 年來,Google Maps 一直致力於將這些資訊以豐富且有用的形式呈現出來,以幫助使用者導航。AI 的進步正在將這項工作推向新的高度,無論是將我們的覆蓋範圍擴大到偏遠地區,還是重新設想如何以更直觀的方式探索世界。

AI 的進步有助於繪製偏遠和農村地區的地圖

到目前為止,我們已在世界各地繪製了大約 16 億座建築和超過 6000 萬公里的道路。由於缺乏高質量的影像和清晰的建築型別和地貌特徵,以前一直難以繪製一些偏遠地區和農村地區的建築和道路資訊。為了解決這個問題,我們正在使用計算機視覺和神經網路技術,從衛星影像中探測建築物。自 2020 年 7 月以來,Google Maps 上的非洲建築物數量增加了 5 倍,從 6000 萬幢增加到了近 3 億幢。

今年,我們在印度和印度尼西亞繪製的建築物數量也增加了一倍。在全球範圍內,Google Maps 上超過 20% 的建築物都已經使用這些新技術進行了探測。在此基礎上,我們還向公眾公開了非洲的建築物資料集,聯合國和世界銀行等國際組織已經在使用這些資訊,以更好地瞭解當地人口密度,並提供支援和緊急援助。

Google Maps 中的沉浸式檢視將航拍和街景影像融合

我們也為 Google Maps 帶來了新的功能。利用 3D 繪圖和機器學習技術的進步,我們正在融合數十億張航拍和街景影像,以建立一個新的高保真的地圖。我們將這些突破性的技術結合在一起,為使用者提供了一種沉浸式檢視的新體驗,使使用者能夠以前所未有的方式探索一個地方。

讓我們去倫敦看看吧。假設使用者計劃和家人一起參觀威斯敏斯特。使用者現在可以直接從手機上的 Google Maps 獲得這種身臨其境的視野,還可以在景點周圍移動......這就是威斯敏斯特大教堂。如果使用者想前往大本鐘,那麼可以在地圖上看到去往大本鐘的道路交通是否擁堵,甚至可以看到天氣預報。如果還想在參觀期間吃點東西,使用者可以檢視附近的餐廳,並且到餐廳的裡面看看。

令人驚奇的是,這並不是有一架無人機在餐廳裡飛行拍攝——這是我們使用神經渲染技術,僅通過影像來創造的體驗。Google Cloud Immersive Stream 讓這種體驗可以在幾乎所有智慧手機上執行。這項功能將於今年晚些時候在 Google Maps 中針對全球部分城市推出。

Google Maps 的另一個重大升級是我們推出了環保路線。這項功能已於去年落地,它能夠為使用者顯示最節約油耗的路線,提供更加節約並且減少碳排放的選擇。環保路線已經在美國和加拿大推出,使用者已經按照這些路線行駛了約 860 億英里,減少了約 50 萬公噸的碳排放,相當於路面上減少了 10 萬輛正在行駛的汽車。

環保路線將於今年晚些時候擴充套件到歐洲

我很高興與大家分享,我們正在將這項功能擴充套件到更多的地方,包括在今年晚些時候將擴充套件到歐洲。在柏林地圖的示例中,使用者可以選擇僅慢三分鐘的路線,將油耗降低 18%。這些微小的決定將產生巨大的影響。隨著這項功能擴充套件至歐洲及其他地區,我們預計到今年年底可以節約的碳排放量將增加一倍。

我們同樣在 Google Flights 上增加了一個類似的功能。當使用者搜尋兩個城市之間的航班時,我們也會向使用者顯示碳排放估值以及價格和時間表等其他資訊,讓使用者輕鬆選擇更加環保的航班。Google Maps 和 Google Flights 中的這些環保功能是我們非常重要的目標,即讓 10 億人通過我們的產品做出更可持續的選擇,我們非常高興能夠看到這些進展。

YouTube 新功能幫助使用者輕鬆訪問視訊內容

除了 Google Maps 之外,視訊正在成為我們分享資訊、互相交流和學習必不可少的載體。很多時候使用者在進入 YouTube 後,是希望在 YouTube 中找到一個視訊中的特定片段,我們希望幫助使用者更快地獲取所需資訊。

去年,我們推出了自動生成的章節,讓使用者可以更輕鬆地跳轉到最感興趣的部分。這對創作者來說也是很棒的功能,因為它節省了創作者製作章節的時間。我們現在正在應用 DeepMind 的多模式技術,這項技術可以同時使用文字、音訊和視訊,並以更高的準確性和更快的速度自動生成章節。有了這個功能,我們現在的目標是將自動生成章節的視訊數量增加 10 倍,從目前的 800 萬到明年的 8000 萬。

通常,瞭解視訊內容的最快方法是閱讀它的指令碼,所以我們也在使用語音識別模型來轉錄視訊。現在所有 Android 和 iOS 的使用者都可以獲取視訊的指令碼。

YouTube 上的自動生成章節

接下來,我們將把 YouTube 上的自動翻譯字幕應用到移動裝置上。這意味著觀眾現在可以獲取 16 種自動翻譯的視訊字幕,創作者也可以藉此吸引全球觀眾。

Google Workspace 幫助提升工作效率

正如我們使用 AI 來改進 YouTube 的功能一樣,我們也正在將 AI 構建到 Workspace 系列產品中,以幫助人們提升工作效率。無論你是在小型企業還是大型機構工作,可能都需要花費大量時間閱讀檔案。也許你現在就回想起了當你有一份 25 頁的檔案要閱讀,而會議將在 5 分鐘後開始的那種恐慌。

在 Google,每當我收到一份長的檔案或電子郵件時,我都會在頂部尋找“TL;DR”——“太長未讀"的縮寫。這讓我們想到,如果更多的事情可以有“TL;DR”,生活不是會更好嗎?

這就是為什麼我們為 Google Docs 引入了自動總結功能。將我們其中一個機器學習模型應用在文字總結功能種,Google Docs 將自動解析單詞並提取出要點。

這標誌著自然語言處理的一個大飛躍。總結需要理解長段落、壓縮資訊並生成語言,而這些已經超出過去最好的機器學習模型的能力。

而文件只是一個開始。我們正努力將總結功能引入 Google Workspace 的其他產品。在接下來的幾個月裡,Google Chat 將使用該功能,為聊天對話提供摘要,幫助使用者迅速加入群聊,或回顧重點資訊。

在未來幾個月內,我們將在 Google Chat 中加入總結功能

而且我們正在努力將轉錄和總結功能引入 Google Meet。這樣,使用者可以快速補上重要會議中錯過的部分。

改進 Google Meet 視訊

當然,很多時候你真的非常希望有一個虛擬房間,可以讓你和別人待在一起。這就是為什麼我們在 Project Starline 的啟發下,繼續提高音訊和視訊質量。我們在去年的 I/O 大會上介紹了 Project Starline。我們一直在 Google 的各個辦公室進行測試,尋求反饋併為未來改進技術。在這個過程中,我們發現了一些可以立刻應用於 Google Meet 的技術。

Project Starline 啟發了機器學習驅動的影像處理,可以自動改善 Google Meet 的影像質量。而且這項技術適用於所有型別的裝置,因此無論你在哪裡,都能展現你的最佳形象。

機器學習驅動的影像處理,自動提高了 Google Meet 的影像質量

我們還為 Google Meet 帶來了攝影棚規格的虛擬燈光。你可以調整燈光的位置和亮度,所以即使使用者身處黑暗的房間或坐在窗前仍然可以被清晰看到。我們正在測試這項功能,以確保人像更加真實,這也是我們在 Pixel 手機上的 Real Tone 和 Monk Scale 所做的工作的推進。

這些只是使用 AI 改進我們產品的其中一些方式:使產品更有幫助,更容易獲得,併為每個人提供創新的新功能。

今天在 I/O 大會上,Prabhakar Raghavan 分享了我們如何幫助人們利用 Google Search 以更直觀的方式找到有用的資訊

通過計算使知識更易獲得

我們已經談到了我們如何推進知識的獲取作為我們使命的一部分:從更好的語言翻譯到改進的跨影像和視訊的搜尋體驗,到使用地圖對世界進行更豐富的探索。

現在我們致力於通過計算使這些知識更容易獲得。我們在計算方面所走過的旅程令人興奮。從桌面到網路到移動裝置到可穿戴裝置的每一次轉變,以及環境計算都使知識在我們的日常生活中更加有用。

儘管我們的裝置很有幫助,但我們不得不相當努力地去適應它們。我一直認為應該由計算機來適應人,而不是人來適應計算機。我們將繼續追尋這方面的進展。

這裡是我們如何利用 Google Assistant 使計算更加自然和直觀地呈現。

推出 LaMDA 2 和 AI Test Kitchen

我們研發的用於對話應有的生成語言模型 LaMDA 的 Demo,以及 AI Test Kitchen

我們在繼續努力提升人工智慧的對話能力。對話和自然語言處理都能讓人們以更簡單的方式使用計算機。大型語言模型是實現這一目標的關鍵。

去年,我們釋出了 LaMDA,這是一個用於對話應用的生成語言模型,可就任何主題展開對話。今天,我們很高興能公開 LaMDA 2,Google 目前打造的最先進的對話 AI。

目前,這些模型的實際應用還處於初始階段,我們有責任去不斷完善它們。為了取得進展,我們需要使用者體驗技術並提供反饋。我們已經向數千名願意參與測試和了解其功能的 Google 同事們開放了 LaMDA,顯著提升了它的對話質量,減少了不準確或冒犯性的回覆。

這就是我們要研發 AI Test Kitchen 的原因,這是一種與更大範圍的使用者一起探索 AI 功能的新方式。AI Test Kitchen 有數種不同的體驗方式,每種方式都旨在讓使用者瞭解自己在現實生活中如何使用 LaMDA。

第一個 Demo 是“想象”,測試模型是否可以理解使用者提供的創意,生成富有想象力的相關描述。這些體驗方式不是產品,只是讓我們和你能一起探索 LaMDA 能做什麼。使用者介面非常簡單。

假設你正在寫一個故事,需要一些靈感。也許你的角色之一正在探索深海,那麼你可以問 LaMDA,在這種情境下會有什麼感覺。在此,LaMDA 描繪了馬裡亞納海溝裡的一個場景,它甚至還可以即時生成後續問題。你可以讓 LaMDA 想象一下那裡可能生活著什麼樣的生物。需要強調的是,我們並沒有為一些特定話題,比如潛水艇或生物發光進行手動程式設計,而是 LaMDA 自己根據訓練資料整合了這些概念。這就是為什麼你幾乎可以詢問任何話題:土星環,甚至是“由冰淇淋製成的星球”。

不跑題是語言模型的一大挑戰。在打造機器學習體驗的過程中,我們希望它既足夠開放,讓人們能夠探索好奇心會把他們帶到哪裡,又集中於話題本身。我們的第二個 Demo 展示了 LaMDA 如何做到這一點。

在這個 Demo 中,我們設定模型專注於與狗相關的主題。它首先生成了一個能開啟對話的問題:“你有沒有想過為什麼狗這麼喜歡玩撿東西?”如果你問一個後續問題,你會得到更細化的答案:狗覺得很有趣,這和狗的嗅覺和狩獵感有關。

使用者可以就任何方面展開後續對話。也許你對狗的嗅覺的工作原理感到好奇,並且想更深入地研究。那麼,你也能得到專門的回覆。無論你問什麼,LaMDA 都會努力將對話限定在與狗相關的這一話題範圍內。如果我開始問板球相關的問題,那麼模型可能會以一種有趣的方式將對話帶回狗身上。

保持不離題是個很棘手的挑戰,要想使用使用語言模型打造有用的應用程式,這是很重要的一個研究領域。

AI Test Kitchen 的這些體驗表明了語言模型有幫助我們進行計劃、瞭解世界和完成很多其它事情的潛力。

當然,在這些模型真正有用之前,還需要解決一些重大挑戰。雖然我們提高了安全性,但該模型仍可能生成不準確、不適當或冒犯性的回應。這就是我們積極邀請使用者提供反饋的原因,這樣他們就可以反饋問題。

我們將按照 Google AI 的原則進行所有工作。我們將不斷迭代 LaMDA,在未來幾個月逐步開放,並仔細、廣泛地評估利益相關者的反饋——從 AI 研究人員和社會科學家到人權專家。我們將把這些反饋整合到 LaMDA 的未來版本中,並隨時分享我們的發現。

將來,我們計劃在 AI Test Kitchen 中新增其它新興 AI 領域。你可以在 g.com/AITestKitchen 中瞭解更多。

讓 AI 語言模型更強大

LaMDA 2 擁有不可思議的對話能力。此外,為了探索自然語言處理和 AI 的其它方面,我們最近還公開了新模型 Pathways Language Model(PaLM)。這是我們迄今為止研發的最大規模的模型,基於 5400 億引數訓練而成。

PaLM 在許多自然語言處理任務上都有著突破性的表現,例如從文字生成程式碼,回答數學問題,甚至解釋一個笑話。

PaLM 通過擴大模型規模實現了這一點。當我們將這種大規模模型與一種名為“思維提示鏈(chain-of- thought)”的新技術結合起來時,結果是令人充滿希望的。“思維提示鏈”讓模型可以將需要多步解決的問題轉化為一系列的中間步驟來處理。

讓我們以一個需要推理的數學問題為例。通常,我們在使用模型前需要先以其它問題和答案訓練它,然後再提問。在這個例子裡,問題是:五月有多少個小時?可以看到,模型並沒有給出正確的答案。

在“思維提示鏈”中,我們給模型輸入一對“問題—答案”,同時解釋了答案是如何得出的。這有點像你的老師一步一步地向你講解如何解題。現在,如果我們再問模型“五月有多少個小時”或者其它相關問題,它能給出正確答案和解答過程。

“思維提示鏈”技術讓模型能更好地進行推理,給出更準確的答案

“思維提示鏈”大大提高了 PaLM 的準確性,讓它在包括數學問題在內的多個推理基準測試(reasoning benchmarks)中達到了最頂級水平。我們在不改變模型訓練方式的情況下完成了這一切。

此外,功能強大的 PaLM 還能做到更多。例如,網路上現在可能沒有足夠多的以你所使用的語言提供的資訊。更令人沮喪的是,你所搜尋的答案可能就在某處,只是沒有以你看得懂的語言呈現,而PaLM 提供了一種有望讓每個人都更容易獲得知識的新方法。

讓我展示一個示例,PaLM 可以用孟加拉語(一種有 2.5 億人使用的語言)回答問題,就像我們用孟加拉語的問題,以及孟加拉語和英語的答案訓練了它一樣。

就是這樣,現在我們可以開始用孟加拉語提問:“孟加拉國的國歌是什麼?” 順便說一句,答案是“Amar Sonar Bangla”——PaLM 也答對了。這並不令人驚訝,因為在孟加拉語資料中很顯然能找到相關答案。

你還可以嘗試一些不太可能以孟加拉語找到相關資訊的問題,比如:“紐約流行的披薩配料是什麼?”該模型再次以孟加拉語做出了正確回答。雖然它的回答到底有多“正確”,這一點很可能在紐約人之間引發辯論。

令人印象深刻的是,PaLM 從未見過孟加拉語和英語之間的對譯。我們也從未訓練過它如何回答問題或翻譯!該模型自己將所有功能結合在一起,可以用孟加拉語正確回答問題。我們可以將這些技術擴充套件到更多的語言和其他複雜的任務。

我們對語言模型的潛力非常樂觀。有朝一日,我們希望我們能以使用者說的任何語言回答更多問題,讓知識在 Google Search 和其它 Google 的工具中更容易被獲取。

推出全世界最大的開放機器學習中心

我們今天所分享的進步之所以能成為現實,離不開我們在基礎設施方面的持續創新。我們最近還宣佈了 Google 計劃向美國各地的資料中心和辦公室投資 95 億美元。

我們最先進的資料中心之一位於俄克拉荷馬州的梅斯縣。我激動地宣佈:我們將為 Google Cloud 客戶推出全世界最大的開放機器學習中心。

我們最先進的資料中心之一,位於美國俄克拉荷馬州梅斯縣

此機器學習中心擁有 8 個 Cloud TPU v4 晶片,是 Google 定製,建在為 Google 最大的神經模型提供支援的網路基礎設施之上,能提供接近 9 x 1018 的算力,可以為 Google 的客戶提供前所未有的執行復雜模型和工作負荷的能力。我們希望這將推動眾多領域的創新,從醫學、物流,到可持續性發展等等。

說到可持續發展,該機器學習中心已達到 90% 的無碳能源運營。這能幫助我們實現自己的目標,即到 2030 年時,旗下所有的資料中心和園區實現全天候無碳運營,我們要成為第一個做到這一點的大公司。

在投資資料中心的同時,我們也在努力創新 Google 的移動平臺,這樣更多的資料處理就可以在本地裝置上進行。Google 定製的 Google Tensor 晶片是朝此方向邁進的重要一步。Pixel 6 和 Pixel 6 Pro 旗艦手機已搭載 Google Tensor 處理器,讓你的手機直接擁有 AI 功能,包括我們所應用的最好的語音識別技術。這也是向“讓裝置更安全”這一目標邁出的一大步。與 Android 的 Private Compute Core 結合後,這項技術可以直接在裝置上執行資料驅動的功能,保護你的隱私。

不管是至關重要還是微不足道的時刻,每天都有人向我們的產品尋求幫助。讓這一點成為可能的關鍵就是在每一步都保護使用者的隱私資訊。儘管技術正變得日益複雜,但我們的產品是安全的,從設計上保護隱私,讓使用者擁有控制權,因此,在讓全世界更多人能安全上網這一點上,我們比其他人走得更遠。

我們今天還分享了 Android 等平臺的更新,這些更新正通過智慧手機和其他可連線裝置,像電視、汽車、手錶,向數十億人提供訪問、連線和資訊。

我們還分享了最新的 Pixel 系列產品,包括Pixel 6a, Pixel Buds Pro, Google Pixel Watch, Pixel 7 和 Pixel 平板電腦,所有產品均融入了環境計算的設計。我們也很高興能通過一系列裝置更好地為使用者提供幫助。

計算技術新前沿——擴增實境技術

今天,我們討論了所有正在改變我們的技術,它們改變了我們使用計算機的方式和獲取知識的方式。無論何時何地,只要有需求,我們都可以找到互聯互通、緊密協作的裝置。而對話介面的加持更為完成任務提供便利。

展望未來,資訊科技領域有了一個新戰線,它擁有推動現有技術繼續發展的潛質,它就是擴增實境技術(AR)。Google 在 AR 領域投入頗多:我們已將 AR 引用到許多產品當中,包括Google Lens、多重搜尋(multisearch)、場景探索(scene exploration)以及 Google Maps 的 Live Views 和沉浸式檢視功能。

AR 各項效能已應用於手機終端,其神奇之處在於它可以在現實世界中為我們帶來最真實、自然的體驗,彷彿我們並非在使用科技。

最令人振奮的是 AR 的潛力,也就是它能使我們去關注真實的世界、真實的生活。要知道,我們所生活的這個世界本就精彩無限!

我們基於現實世界進行創作設計,絕不脫離現實,這一點至關重要。AR 恰恰是能夠幫助我們實現這種設計理念的新方法。

以語言為例,語言是人與人之間溝通的基礎。然而,如果對方講著另一種語言,或者會話的一方有聽覺障礙時,溝通就變得困難重重。我們來看看當我們將最新技術應用在翻譯和語言轉錄中,並在早期測試原型中呈現出來時,會出現什麼效果。

這個視訊 中可以看到人們能夠自然、順暢地與他人溝通,他們的臉上洋溢著喜悅。理解與被理解,那聯通的一刻正是我們在知識和計算機技術方面所關注的,是我們通過產品幫助人們實現的,也是我們每日奮鬥追逐的目標。

每一年,我們都在向我們的終極使命邁進,未來的路還很長。Google 真切地為此感到振奮!我們抱以樂觀的態度,堅信我們取得的突破將引領我們完成使命。感謝所有與會開發者、合作伙伴和消費者。我們期待與各位一起共築未來。

相關文章