​谷歌大神Jeff Dean領銜,萬字展望5大AI趨勢

量子位發表於2022-02-06

​谷歌大神Jeff Dean領銜,萬字展望5大AI趨勢

大資料文摘轉載自學術頭條


對於關心人工智慧技術進展的讀者來說,每年年底來自整個谷歌 research 團隊撰寫的年終總結,可謂是必讀讀物。

今天,由谷歌大神 Jeff Dean 領銜,這份總結雖遲但到。出於知識傳播目的,“學術頭條”現將全文翻譯如下,以饗讀者:

在過去的幾十年裡,我見證了機器學習(ML, Machine Learning)和電腦科學(CS, Computer Science)領域的變化和發展。

早期的方法往往存在某些缺陷導致了失敗,然而,通過在這些方法上的不斷研究和改進,最終產生了一系列的現代方法,目前這些方法已經非常成功。按照這種長期的發展模式,在未來幾年內,我認為我們將會看到一些令人欣喜的進展,這些進展最終將造福數十億人的生活,產生比以往任何時候都更大的影響。

這篇文章中,我將重點介紹 ML 中可能產生重大影響的五個領域。對於其中的每一項,我都會討論相關的研究(主要是從 2021 年開始),以及我們在未來幾年可能會看到的方向和進展。


  • 趨勢1:更強大的通用 ML 模型
  • 趨勢2:ML 的持續效率提高
  • 趨勢3:ML 對個人和社會都越來越有益
  • 趨勢4:ML 在科學、健康和可持續發展方面日益增長的效益
  • 趨勢5:更深入和廣泛地理解 ML


趨勢1:更強大的通用ML模型

研究人員正在訓練比以往更大、更有能力的ML模型。

例如,僅在過去的幾年中,模型已經在語言領域取得突破性進展,從數百億的資料 tokens 中訓練數十億個引數(如,11B 引數 T5 模型),發展到數千億或上萬億的資料 tokens 中訓練高達數千億或上萬億的引數(如,密集模型,像 OpenAI 的 175 B 引數 GPT3 模型、DeepMind 的 280B 引數 Gopher 模型;稀疏模型,如谷歌的 600 B 引數 GShard 模型、1.2T 引數 GLaM 模型)。資料集和模型大小的增加導致了各種語言任務的準確性的顯著提高,這可以從標準自然語言處理(NLP, Natural Language Processing)基準測試任務的全面改進中觀察到,正如對語言模型和機器翻譯模型的神經網路縮放法則(neural scaling laws)的研究預測的那樣。

這些先進的模型中,有許多專注於單一但重要的書面語言模式上,並且在語言理解基準和開放式會話能力方面顯示出了最先進的成果,即是跨越一個領域的多個任務也是如此。除此之外,他們還表現出了令人興奮的能力,即僅用相對較少的訓練資料便可以泛化新的語言任務。因為在某些情況下,對於一個新的任務,幾乎不存在訓練示例。簡單舉例,如改進的長式問答(long-form question answering),NLP 中的零標籤學習,以及我們的 LaMDA 模型,該模型展示出了一種複雜的能力,可以進行開放式對話,並在多個對話回合中保持重要的上下文。

​谷歌大神Jeff Dean領銜,萬字展望5大AI趨勢
​谷歌大神Jeff Dean領銜,萬字展望5大AI趨勢
圖丨與 LaMDA 的對話模仿了威德爾海豹(Weddell sea)預設提示,“嗨,我是 Weddell sea。你有什麼問題要問嗎?”該模型在很大程度上控制了角色中的對話。

Transformer 模型也對影像、視訊和語音模型產生了重大影響,所有這些模型也都從縮放中受益,正如研究可視 Transformer 模型的縮放法則工作中預測的那樣。用於影像識別和視訊分類的 Transformers 在許多基準上都取得了最先進的結果,我們還證明,與單獨使用視訊資料的模型相比,在影像資料和視訊資料上的聯合訓練模型可以提高視訊任務的效能。我們已經為影像和視訊 Transformers 開發了稀疏的軸向注意機制(axial attention mechanisms),從而更有效地使用計算,為視覺 Transformers 模型找到了更好的影像標記方法,並通過與卷積神經網路相比,研究了視覺 Transformers 的操作方式,加深了我們對視覺 Transformers 方法的理解。將 Transformers 模型與卷積操作相結合,已在視覺和語音識別任務中展示出顯著的優勢。

生成模型的輸出也在大幅提高。在過去幾年裡取得了顯著的進步,尤其在影像的生成模型中最為明顯。例如,最近的模型已經證明了僅給定一個類別(如“irish setter”或“steetcar”)便可以建立逼真的影像,可以“填充”一個低解析度的影像,以建立一個看起來十分自然的高解析度匹配影像,甚至可以構建任意長度的自然場景。另一個例子是,可以將影像轉換成一系列離散 tokens,然後使用自迴歸生成模型以高保真度進行合成。

​谷歌大神Jeff Dean領銜,萬字展望5大AI趨勢
圖丨級聯擴散模型(cascade diffusion models)的例子,從一個給定的類別生成新的影像,然後使用這些影像作為種子來建立高解析度的示例:第一個模型生成低解析度影像,其餘的執行向上取樣(upsampling)到最終的高解析度影像。

​谷歌大神Jeff Dean領銜,萬字展望5大AI趨勢
圖丨SR3 超解析度擴散模型是以低解析度影像作為輸入,並從純噪聲中構建相應的高解析度影像。

鑑於這些強大的功能背後,潛藏著的是巨大的責任,所以我們不得不仔細審查,這類模型的潛在應用是否違揹我們的人工智慧原則。

除了先進的單模態模型(single-modality models)外,大規模的多模態模型(multimodal models)也在陸續進入人們的視野。這些模型是迄今為止最前沿的模型,因為它們可以接受多種不同的輸入模式(例如,語言、影像、語音、視訊),而且在某些情況下,還可以產生不同的輸出模式,例如,從描述性的句子或段落生成影像,或用人類語言簡要描述影像的視覺內容。這是一個令人驚喜的研究方向,因為類似於現實世界,在多模態資料中更容易學習(例如,閱讀一些文章並看時輔以演示比僅僅閱讀有用得多)。因此,將影像和文字配對可以幫助完成多種語言的檢索任務,並且更好地理解如何對文字和影像輸入進行配對,可以對影像字幕任務(image captioning tasks)帶來更好的改進效果。同樣,在視覺和文字資料上的聯合訓練,也有助於提高視覺分類任務的準確性和魯棒性,而在影像、視訊和音訊任務上的聯合訓練則可以提高所有模式的泛化效能。還有一些誘人的跡象表明,自然語言可以作為影像處理的輸入,告訴機器人如何與這個世界互動,以及控制其他軟體系統,這預示著使用者介面的開發方式可能會發生變化。這些模型處理的模式將包括語音、聲音、影像、視訊和語言,甚至可能擴充套件到結構化資料、知識圖和時間序列資料等等。

​谷歌大神Jeff Dean領銜,萬字展望5大AI趨勢
圖丨基於視覺的機器人作業系統的例子,能夠泛化到新的任務。左圖:機器人正在執行一項用自然語言描述為“將葡萄放入陶瓷碗中”的任務,而不需要對模型進行特定的訓練。右圖:和左圖一樣,但是有“把瓶子放在托盤裡”的新的任務描述。

這些模型通常使用自監督學習(Self-supervised learning)的訓練,在這種方法中,模型從觀察到的“原始”資料中學習,而這些資料沒有被整理或標註。例如,GPT-3 和 GLaM 使用的語言模型,自監督的語音模型 BigSSL,視覺對比學習模型 SimCLR,以及多模態對比模型 VATT。自監督學習允許大型語音識別模型匹配之前的語音搜尋中的自動語音識別技術(Automatic Speech Recognition)的基準精度,同時僅使用 3% 的標註訓練資料。這些趨勢是令人興奮的,因為它們可以大大減少為特定任務啟用 ML 所需的努力。而且,它們使得在更有代表性的資料上訓練模型變得更容易,這些資料可以更好地反映不同的亞種群、地區、語言或其他重要的表示維度。

所有這些趨勢都指向訓練能夠處理多種資料模式並解決數千或數百萬任務的高能力通用模型的方向。通過構建稀疏性模型,使得模型中唯一被給定任務啟用的部分是那些針對其優化過的部分,由此一來,這些多模態模型可以變得更加高效。在未來的幾年裡,我們將在名為“Pathways”的下一代架構和綜合努力中追求這一願景。隨著我們把迄今為止的許多想法結合在一起,我們期望在這一領域看到實質性的進展。

​谷歌大神Jeff Dean領銜,萬字展望5大AI趨勢
圖丨Parthway:我們正在朝著單一模型的描述而努力,它可以在數百萬個任務中進行泛化。

趨勢2:ML 的持續效率提高

由於計算機硬體設計、ML 演算法和元學習(meta-learning)研究的進步,效率的提高正在推動 ML 模型向更強的能力發展。ML 管道的許多方面,從訓練和執行模型的硬體到 ML 體系結構的各個元件,都可以在保持或提高整體效能的同時進行效率優化。這些不同的執行緒中的每一個都可以通過顯著的乘法因子來提高效率,並且與幾年前相比,可以將計算成本降低幾個數量級。這種更高的效率使許多關鍵的進展得以實現,這些進展將繼續顯著地提高 ML 的效率,使更大、更高質量的 ML 模型能夠以更有效的成本開發,並進一步普及訪問。我對這些研究方向感到非常興奮!

ML加速器效能的持續改進:

每一代ML加速器都在前幾代的基礎上進行了改進,使每個晶片的效能更快,並且通常會增加整個系統的規模。其中,擁有大量晶片的 pods,這些晶片通過高速網路連線在一起,可以提高大型模型的效率。

當然,移動裝置上的 ML 能力也在顯著增加。Pixel 6 手機配備了全新的谷歌張量處理器(Google Tensor processor),整合了強大的ML加速器,以更好地支援重要的裝置上功能。

我們使用 ML 來加速各種計算機晶片的設計(下面將詳細介紹),這也帶來了好處,特別是在生產更好的 ML 加速器方面。

​谷歌大神Jeff Dean領銜,萬字展望5大AI趨勢

持續改進的 ML 編譯和 ML 工作負載的優化:

即使在硬體沒有變化的情況下,對於 ML 加速器的編譯器和系統軟體的其他優化也可以顯著提高效率。例如,“自動調優多通道機器學習編譯器的靈活方法”展示瞭如何使用 ML 來執行編譯設定的自動調優,從而在相同的底層硬體上為一套 ML 程式實現 5-15%(有時高達 2.4 倍的改進)的全面效能改進。GSPMD 描述了一個基於 XLA 編譯器的自動並行化系統,該系統能夠擴充套件大多數深度學習網路架構,超出加速器的記憶體容量,並已應用於許多大型模型,如 GShard-M4、LaMDA、BigSSL、ViT、MetNet-2 和 GLaM 等等,在多個領域上帶來了最先進的結果。

​谷歌大神Jeff Dean領銜,萬字展望5大AI趨勢

圖丨在 150 ML 模型上使用基於 ML 的編譯器自動調優,可以加快端到端模型的速度。包括實現 5% 或更多改進比例的模型。條形顏色代表了優化不同模型元件的相對改程式度。


人類創造力驅動的更高效模型架構的發現:

模型體系結構的不斷改進,大大減少了許多問題達到給定精度水平所需的計算量。例如,我們在 2017 年開發的 Transformer 結構,能夠在幾個 NLP 任務和翻譯基準上提高技術水平。與此同時,可以使用比各種其他流行方法少 10 倍甚至百倍的計算來實現這些結果,例如作為 LSTMs 和其他迴圈架構。類似地,視覺 Transformer 能夠在許多不同的影像分類任務中顯示出改進的最新結果,儘管使用的計算量比卷積神經網路少 4 到 10 倍。

更高效模型架構的機器驅動發現:

神經體系結構搜尋(NAS, Neural Architecture Search)可以自動發現對於給定的問題域更有效、新穎的 ML 體系結構。NAS 的主要優勢是,它可以大大減少演算法開發所需的工作量,因為 NAS 在每個搜尋空間和問題域組合中只需要一次性的工作。此外,雖然最初執行 NAS 的工作可能在計算上很昂貴,但由此產生的模型可以大大減少下游研究和生產環境中的計算,從而大大減少整體資源需求。例如,為了發現演化 Transformer(Evolved Transformer)而進行的一次性搜尋只產生了 3.2 噸的 CO2e,但是生成了一個供 NLP 社群中的任何人使用的模型,該模型比普通的 Transformer 模型的效率高 15-20%。最近對 NAS 的使用發現了一種更高效的體系結構 Primer(開源),與普通的 Transformer 模型相比,它降低了4倍的訓練成本。通過這種方式,NAS 搜尋的發現成本通常可以通過使用發現的更高效的模型體系結構得到補償,即使它們只應用於少數下游任務。

​谷歌大神Jeff Dean領銜,萬字展望5大AI趨勢
圖丨與普通的 Transformer 模型相比,NAS 發現的 Primer 架構的效率是前者的4倍。這幅圖(紅色部分)顯示了 Primer 的兩個主要改進:深度卷積增加了注意力的多頭投影和 squared ReLU 的啟用(藍色部分表示原始 Transformer)。

NAS 還被用於發現視覺領域中更有效的模型。EfficientNetV2 模型體系結構是神經體系結構搜尋的結果,該搜尋聯合優化了模型精度、模型大小和訓練速度。在 ImageNet 基準測試中,EfficientNetV2 提高了 5 到 11 倍的訓練速度,同時大大減少了先前最先進模型的尺寸。CoAtNet 模型架構是通過一個架構搜尋建立的,該架構搜尋採用了視覺 Transformer 和卷積網路的想法,以建立一個混合模型架構,其訓練速度比視覺 Transformer 快 4 倍,並取得了新的 ImageNet 技術水平。

​谷歌大神Jeff Dean領銜,萬字展望5大AI趨勢
圖丨與之前的 ImageNet 分類模型相比,EfficientNetV2 獲得了更好的訓練效率。

搜尋的廣泛應用有助於改進 ML 模型體系結構和演算法,包括強化學習(RL,Reinforcement Learning)和進化技術(evolutionary techniques)的使用,激勵了其他研究人員將這種方法應用到不同的領域。為了幫助其他人建立他們自己的模型搜尋,我們有一個開源的模型搜尋平臺,可以幫助他們探索發現其感興趣的領域的模型搜尋。除了模型架構之外,自動搜尋還可以用於發現新的、更有效的強化學習演算法,這是在早期 AutoML-Zero 工作的基礎上進行的,該工作演示了自動化監督學習演算法發現的方法。

稀疏的使用:

稀疏性是演算法的另一個重要的進步,它可以極大地提高效率。稀疏性是指模型具有非常大的容量,但對於給定的任務、示例或 token,僅啟用模型的某些部分。2017 年,我們推出了稀疏門控專家混合層(Sparsely-Gated Mixture-of-Experts Layer),在各種翻譯基準上展示了更好的效能,同時在計算量上也保持著一定的優勢,比先前最先進的密集 LSTM 模型少 10 倍。最近,Switch Transformer 將專家混合風格的架構與 Transformer 模型架構結合在一起,在訓練時間和效率方面比密集的 T5-Base Transformer 模型提高了 7 倍。GLaM 模型表明,Transformer 和混合專家風格的層可以組合在一起,可以產生一個新的模型。該模型在 29 個基準線上平均超過 GPT-3 模型的精度,使用的訓練能量減少 3 倍,推理計算減少 2 倍。稀疏性的概念也可以用於降低核心 Transformer 架構中注意力機制的成本。

​谷歌大神Jeff Dean領銜,萬字展望5大AI趨勢
圖丨BigBird 稀疏注意模型由全域性 tokens(用於處理輸入序列的所有部分)、區域性 tokens(用於處理輸入序列的所有部分)和一組隨機 tokens 組成。從理論上看,這可以解釋為在 Watts-Strogatz 圖上新增了一些全域性 tokens。

就計算效率而言,在模型中使用稀疏性顯然是一種具有很高潛在收益的方法,而就在這個方向上進行嘗試的研究想法而言,我們只是觸及了表面。

這些提高效率的方法中的每一種都可以結合在一起,這樣,與美國平均使用 P100 GPUs 訓練的基線 Transformer 模型相比,目前在高效資料中心訓練的等效精度語言模型的能源效率提高了 100 倍,產生的 CO2e 排放量減少了 650 倍。這甚至還沒有考慮到谷歌的碳中和(carbon neutral),100% 的可再生能源抵消。

趨勢3:機器學習正變得對個人和社群更加有益

隨著 ML 和矽硬體(如 Pixel 6 上的 Google Tensor 處理器)的創新,許多新體驗成為可能,移動裝置能夠更持續有效地感知上下文和環境。這些進步提高了裝置的可訪問性和易用性,同時計算能力也有提升,這對於移動攝影、實時翻譯等流行功能至關重要。值得注意的是,最近的技術進步還為使用者提供了更加個性化的體驗,同時加強了隱私保護。

人們比以往任何時候都依賴他們的手機攝像頭來記錄日常生活和創作靈感。機器學習在計算攝影中的巧妙應用提升了手機相機的功能,使它們更易於使用,產生了更高質量的影像。一些先進的技術,如改進的 HDR+,在弱光下的拍攝能力,更好的人像處理功能,及更大的包容性使得手機攝像可以更真實地反映拍攝物件。Google Photos 中基於機器學習的強大工具如 Magic Eraser 等還能進一步優化照片。

​谷歌大神Jeff Dean領銜,萬字展望5大AI趨勢

除了用手機進行創造外,許多人還依賴手機與他人實時跨語言溝通,例如在打電話時使用 Live Translate 和 Live Caption。由於自我監督學習(self-supervised learning)和有噪音的學生訓練(noisy student training)等技術,語音識別準確率持續改善。對有口音的語音、嘈雜的語音或重疊語音等有明顯的改善。在文字到語音合成的進步基礎上,人們可以使用谷歌朗讀技術 Read Aloud 在越來越多的平臺上收聽網頁和文章,使獲取資訊更加便宜,跨越了模態和語言的障礙。通過穩定生成的即時翻譯,谷歌翻譯(Google Translate)的實時語音翻譯水平顯著改善。高質量的語音翻譯在多語言交流時提供了更好的使用者體驗。在 Lyra 語音編解碼器和 Soundstream 音訊編解碼器中,機器學習與傳統編解碼器方法相結合使語音、音樂和其他聲音能夠以低得多的位元率保真地傳送。

​谷歌大神Jeff Dean領銜,萬字展望5大AI趨勢
智慧文字選擇(Smart Text Selection)等工具得到了改進,它可以自動選擇電話號碼或地址等資訊,以便複製和貼上。此外,Screen Attention 可以防止手機螢幕變暗,凝視識別技術有所的改進。機器學習還讓人們的生活更加安全。例如, Suspicious Message Alerts 對可能的網路釣魚攻擊提出預警,Safer Routing 提出更加安全的替代路線。

考慮到這些功能使用資料的敏感性,把它們預設設定為不共享是很重要的。以上提到的許多功能都在 Android的Private Compute Core 中執行。這是一個開源的、安全的環境,與作業系統的其餘部分隔離開。Android 確保未經使用者同意,不會將在 Private Compute Core 中的資料共享給任何應用程式。Android 還阻止 Private Compute Core 的任何功能直接訪問網路。功能通過一小部分開源 API 與 Private Compute Services 進行通訊,這樣就能剔除身份敏感資訊並使用聯邦學習、聯邦分析和私人資訊檢索等功能保護隱私。 

這些技術對於發展下一代計算和互動範例至關重要,個人或公共裝置需要在不損害隱私的情況下學習並幫助訓練(演算法)模型。聯邦的無人監督學習方法,可以創造出越來越智慧的系統。這些系統的互動更加直觀,更像是一個社交實體,而不是一臺機器。只有對我們的技術進行深刻變革,才有可能廣泛而公平地擁有這些智慧系統,讓它們支援神經計算。

趨勢4:機器學習在科學、健康和可持續發展方面的影響越來越大

近年來,我們看到機器學習在物理、生物等基礎科學科的影響越來越大,在可再生能源和醫學等領域也有許多令人興奮的應用。計算機視覺模型對個人和全球問題都有所功效。它們可以幫助醫生進行工作,擴大我們對神經生理學的理解,還可以提供更好的天氣預報,加快救災工作。其他型別的機器學習模型能發現減少碳排放和提高替代能源產量的方法,在應對氣候變化方面至關重要。這樣的模型甚至可以作為藝術家的創作工具!隨著機器學習變得更加強健(魯棒)和完善,它在的應用潛力繼續擴大,有助於解決我們面臨的一些最具挑戰性的問題。

計算機視覺提供新的洞察力:

在過去的十年裡,計算機視覺的進步使計算機能夠完成不同科學領域的各種任務。在神經科學中,自動重建技術可以從腦組織薄片的高解析度電子顯微鏡影像中重現腦組織的神經連線結構。前些年,谷歌為研究果蠅、老鼠的大腦創造了這樣的資源,去年,我們與哈佛大學的利希特曼實驗室(Lichtman Lab)合作,進行了第一次大規模的人類皮質突觸連線研究。該研究跨越了所有皮層的多個細胞型別。這項工作的目標是幫助神經科學家研究令人驚歎的人類大腦。例如,下圖顯示了成人大腦中約 860 億個神經元中的 6 個。

​谷歌大神Jeff Dean領銜,萬字展望5大AI趨勢

算機視覺技術還提供了強大的工具來應對全球挑戰。基於深度學習的天氣預報方法用衛星和雷達影像作為輸入,結合其他大氣資料,產生比傳統的基於物理的模型更準確的天氣和降水預報,預報時間長達 12 小時。它們還可以比傳統方法更快地產生更新的預報,這在極端天氣時期可能是至關重要的。

​谷歌大神Jeff Dean領銜,萬字展望5大AI趨勢

擁有準確的建築足跡記錄對於從人口估計和城市規劃到人道主義響應和環境科學的一系列應用都是至關重要的。在世界上的許多地方,包括非洲的大部分地區,這一資訊以前是無法獲得的,但新的研究表明,將計算機視覺技術應用於衛星影像可以幫助識別大陸範圍內的建築邊界。這一方法的結果已在開放建築資料集中釋出,這是一種新的開放獲取的資料資源,其中包含 5.16 億座覆蓋非洲大陸大部分地區的建築的位置和佔地面積。我們還能夠在與世界糧食計劃署的合作中使用這一獨特的資料集,通過 ML 的應用提供自然災害後的快速損失評估。

​谷歌大神Jeff Dean領銜,萬字展望5大AI趨勢

在健康領域的應用:

除了推進基礎科學,人工智慧還可以在更廣泛的範圍內為醫學和人類健康做出貢獻。在健康領域利用電腦科學並不是什麼新鮮事。但機器學習開啟了新的大門,帶來了新的機遇和挑戰。

以基因組學領域為例。計算機從一開始就對基因組學很重要,但是機器學習增加了新的功能並顛覆了舊的模式。當谷歌的研究人員探索這一領域的工作時,許多專家認為利用深度學習來推斷基因變異的想法是牽強的。如今,這種機器方法被認為是最先進的。谷歌釋出的開源軟體 DeepConsensus 以及與加州大學洛杉磯分校(UCSC)合作的 Pepper-DeepVariant 提供了尖端的資訊學支援。我們希望更多的快速測序可以在近期進入實際應用領域,並對患者產生實際影響。

以基因組學領域為例。計算技術一直對基因組學非常重要,但機器學習方法改變了之前的舊模式,並增添了新的功能。最初,谷歌的研究人員使用機器學習在該領域展開研究時,許多專家認為使用深度學習技術從測序儀中推斷是否存在基因變異的想法是不可行的。但如今,機器學習是最先進的研究方法。並且未來機器學習將扮演更重要的角色,比如基因組學公司正在開發更精確、更快的新測序儀,它需要匹配更好的推理能力。我們也釋出了 DeepConsensus 開源軟體,以及與 UCSC 合作的 PEPPER-DeepVariant,為這些新儀器提供最前沿的資訊學支援。我們希望這些效能更強的測序儀可以儘快應用在實際患者中併產生有益影響。

​谷歌大神Jeff Dean領銜,萬字展望5大AI趨勢
圖丨DeepConsensus 中的 Transformer 結構示意圖,它可以糾正測序錯誤,提高準確率。

機器學習也可以在處理測序資料之外起作用,比如使用機器學習加速個性化健康的基因組資訊建設。廣泛表型和測序個體的大型生物樣本庫的建立,可以徹底改變我們理解和管理疾病遺傳易感性的方式。基於機器學習的表型方法可以提高將大型影像和文字資料集轉換為可用於遺傳相關研究表型的可擴充套件性,並且 DeepNull 也可以利用大型表型資料進行遺傳研究。我們也很高興將這兩種開源方法公佈給科學界。

​谷歌大神Jeff Dean領銜,萬字展望5大AI趨勢
圖丨根據生物樣本庫中的基因組資料,生成的解剖學和疾病性狀的大規模量化過程

正如機器學習可以幫助我們看到基因組資料中的隱藏特徵一樣,它也可以幫助我們從其他健康資料型別中發現並收集新資訊。疾病的診斷通常包括模式識別、關係量化和在大量類別中識別出新例項等任務,而這些都是機器學習擅長的。谷歌的研究人員已經使用機器學習來解決各種各樣的問題,但也許沒有一個問題比它在醫學成像中的應用有更大進展。

谷歌在 2016 年發表了一篇關於深度學習在糖尿病視網膜病變篩查中應用的論文,被《美國醫學會雜誌》(JAMA)的編輯選為十年來最具影響力的十大論文之一。這意味著它不僅在機器學習和健康方面具有廣泛影響力,並且也是十年來最具影響的 JAMA 論文之一。而且我們的研究影響並不僅限於對論文,而是擴充套件到現實世界中建立系統的能力。通過我們的全球合作伙伴網路,該專案已經幫助印度、泰國、德國和法國的數萬名患者進行疾病篩查,否則他們自己可能沒有能力接受這種威脅視力疾病的檢測。

我們希望看到更多機器學習輔助系統的部署,以應用到改善乳腺癌篩查、檢測肺癌、加速癌症放射治療、標記異常x光和對前列腺癌活檢分級上。機器學習為每個領域都提供了新的幫助。比如機器學習輔助的結腸鏡檢查,就是一個超越了原有基礎的例子。結腸鏡檢查不僅僅只是診斷結腸癌,還可以在手術過程中切除息肉,是阻止疾病發展和預防嚴重疾病的前沿陣地。在該領域中,我們已經證明機器學習可以幫助確保醫生不遺漏息肉,幫助檢測難以發現的息肉,還可以增加維度來提高準確度,例如應用同步定位和繪圖技術。在與耶路撒冷 Shaare Zedek Medical Center 醫療中心的合作中,實驗證明這些系統可以實時工作,平均每次手術可以檢測到一個可能會漏檢的息肉,而且每次手術的錯誤警報少於 4 次。

​谷歌大神Jeff Dean領銜,萬字展望5大AI趨勢
圖丨對(A)一般異常、(B)結核病和(C)COVID-19 的真陽性、假陽性以及真陰性、假陰性的胸部 X 光片(CXR)進行取樣。在每張 CXR 中,紅色的輪廓表示模型識別時關注的區域(即類啟用圖),黃色的輪廓表示由放射科醫生認定的感興趣區域。

Care Studio 是另一個有潛力的醫療保健計劃,它使用最先進的機器學習和 NLP 技術來分析結構化資料和醫療記錄,並在正確的時間為臨床醫生提供相關資訊,幫助他們提供更積極和準確的治療。

儘管機器學習可能對擴大訪問量和提高臨床準確性很重要,但我們發現有新的趨勢正在出現:使用機器學習幫助人們的日常健康和幸福。我們日常使用的裝置都部署有強大的感測器,可以幫助人們普及健康指標和資訊,使人們可以對自己的健康做出更明智的決定。目前已經有了可以評估心率和呼吸頻率的智慧手機攝像頭,並且無需額外的硬體裝置。Nest Hub 裝置可以支援非接觸式睡眠感知,讓使用者更好地瞭解自己的夜間健康狀況。我們可以在自己的 ASR 系統中顯著提高無序語音識別的質量,也可以使用機器學習幫助有語音障礙的人重塑聲音,使他們能夠用自己的聲音交流。也許,使用機器學習讓智慧手機幫助人們更好地研究皮膚病狀況,或者幫助視力有限的人慢跑,並不是遙不可及的:這些機遇證明未來是光明的。

​谷歌大神Jeff Dean領銜,萬字展望5大AI趨勢

用於非接觸式睡眠感知的自定義機器學習模型可以有效地處理連續的3維雷達張量(彙總了一定距離、頻率和時間範圍內的活動),從而自動計算出使用者清醒或睡著的可能性。

機器學習在氣候危機中的應用:

氣候變化也是一個至關重要的領域,對人類來說具有非常緊迫的威脅。我們需要共同努力來扭轉有害排放的趨勢,以確保未來的安全和繁榮。而更好地瞭解不同選擇對氣候的影響,可以幫助我們用多種方式應對這一挑戰。

為此,我們在谷歌地圖中推出了環保路線,預計該方法可以每年節省約 100 萬噸二氧化碳排放(相當於在道路上減少 20 多萬輛汽車)。最近的實驗研究表明,在美國鹽湖城使用谷歌地圖導航可以實現更快、更環保的路線,節省了 1.7% 的二氧化碳排放量和 6.5% 的旅行時間。此外,還可以讓地圖軟體更好地適應電動汽車,幫助緩解里程焦慮,鼓勵人們使用無排放的交通工具。我們還與世界各地的城市進行合作,利用匯總的歷史交通資料,幫助改善交通燈計時設定。在以色列和巴西進行的一項早期試點研究顯示,有檢查十字路口的燃油消耗和延誤時間減少了 10-20%。

​谷歌大神Jeff Dean領銜,萬字展望5大AI趨勢
圖丨採用谷歌地圖的環保路線,將會展示最快和最省油的路線,所以你可以選擇任意一條適合你的路線。

從長遠來看,核聚變有望成為一種改變世界方式的可再生能源。在與 TAE Technologies 的長期合作中,我們通過設定 1000 多個相關控制引數,使用機器學習來幫助聚變反應堆保持穩定的等離子體。通過我們的合作,TAE 實現了 Norman 反應堆的主要目標,這離我們實現平衡的核聚變又近了一步。這臺機器能在 3000 萬開爾文的溫度下保持穩定的等離子體 30 毫秒,這是系統可用功率範圍的極限。目前他們已經設計完成了一個更強大的核聚變機器,並希望該機器能在十年內展示出實現核聚變平衡的必要條件。

並且,我們還得努力應對越來越常見的火災和洪水(像數百萬加州人一樣不得不適應定期的“火災季節”)。去年,我們釋出了一份由衛星資料支援的火災邊界地圖,幫助美國人輕鬆地在自己裝置上了解火災的大致規模和位置。我們還將谷歌上所有的火災資訊進行整合,並在全球範圍內進行推出。我們也一直在應用圖形優化演算法來幫助優化火災疏散路線,以幫助人們安全逃離快速推進的火災。2021 年,我們的洪水預報計劃的預警系統覆蓋範圍擴大到 3.6 億人,是前一年的三倍以上,並向面臨洪災風險人群的移動裝置直接傳送了 1.15 億多條通知。我們還首次在現實世界系統中部署了基於 LSTM(長短時記憶網路)的預測模型和 Manifold 模型,並分享了系統中所有元件的詳細資訊。

​谷歌大神Jeff Dean領銜,萬字展望5大AI趨勢
圖丨谷歌地圖中的火災圖在緊急情況下為人們提供關鍵資訊。

我們也在努力完善可持續發展計劃。谷歌在 2007 年成為第一家實現碳中和的大型公司,也在 2017 年成為第一家使用 100% 可再生能源的公司。我們運營著行業中最清潔的全球雲,也是世界上最大的可再生能源企業採購商。在 2020 年,我們成為第一家承諾在全球所有資料中心和校園中全天候執行無碳能源的大型公司。這比將能源使用與可再生能源相匹配的傳統方法更具挑戰性,但我們希望能在 2030 年前完成這一目標。目前,機器學習模型訓練的碳排放是該領域關注的主要問題,而在模型架構、資料中心和機器學習加速器方面做出正確的選擇,可以減少約 100-1000 倍的碳足跡訓練量。

趨勢5:對機器學習有更深入和更廣泛的理解

隨著機器學習在技術產品和社會中的應用越來越廣泛,為了確保它被公平和公正地應用,我們必須繼續開發新技術,以確保它惠及更多人。這是我們“負責任人工智慧和以人為本技術”(Responsible AI and Human-Centered Technology)研究小組的主要研究重點,也是我們對各種責任相關主題進行研究的領域。

基於使用者線上產品活動的推薦系統是研究的重點領域。由於這些推薦系統通常由多個不同部分組成,理解它們的公平性往往需要深入瞭解單個部分以及各個部分組合在一起時的行為。最近的研究工作揭示了提高單個部分和整個推薦系統的公平性的方法,有助於更好地理解這些關係。此外,當從使用者的隱藏活動中學習時,推薦系統以一種無偏差的方式進行學習。因為從以前使用者所展示的專案中直接學習的方法中會表現出很明顯的偏差。並且如果不對這種偏差進行糾正,推薦產品被展示的位置越顯眼,它們就越容易被頻繁推薦給未來的使用者。

與推薦系統一樣,上下文環境在機器翻譯中也很重要。因為大多數機器翻譯系統都是獨立地翻譯單個句子,並沒有額外的上下文環境。在這種情況下,它們往往會加強與性別、年齡或其他領域有關的偏見。為此,我們長期以來一直在研究如何減少翻譯系統中的性別偏見。為了幫助翻譯界研究,去年我們基於維基百科傳記的翻譯來研究翻譯中的性別偏見,併發布了一個資料集。

部署機器學習模型的另一個常見問題是分佈轉移:如果訓練模型的資料統計分佈與輸入模型的資料統計分佈不一致,那麼有時模型的行為是不可預測的。最近的研究中,我們使用 Deep Bootstrap 框架來比較現實世界和“理想世界”(ideal world)的區別,前者的訓練資料是有限的,而後者擁有無限的資料。更好地理解模型在這兩種情況下(真實與理想)的行為,可以幫助我們開發出更適用於新環境的模型,並減少在固定訓練資料集上的偏差。

儘管人們對機器學習演算法和模型開發的工作有極大的關注,但研究者們對於資料收集和資料集的管理往往關注較少,但這些研究也非常重要,因為機器學習模型所訓練的資料可能是下游應用中出現偏見和公平性問題的潛在原因。分析機器學習中的資料級聯可以幫助我們識別機器學習專案生命週期中,可能對結果產生重大影響的環節。這項關於資料級聯的研究已經在修訂後的 PAIR 指南中為資料收集和評估提供了證據支援,該指南主要面向的是機器學習的開發人員和設計人員。

​谷歌大神Jeff Dean領銜,萬字展望5大AI趨勢
圖丨不同顏色的箭頭表示各種型別的資料級聯,每個級聯通常起源於上游部分,在機器學習開發過程中複合,並體現在下游部分。

更好地理解資料是機器學習研究的一個重要部分。我們對一些方法進行研究,來更好地理解特定的訓練例項對機器學習模型的影響,這可以幫助我們發現和調查異常資料,因為錯誤標記的資料或其他類似的問題可能會對整個模型行為產生巨大的影響。同時,我們還建立了“瞭解你的資料”(Know Your Data)工具,以幫助機器學習研究人員和從業人員更好地瞭解資料集的屬性。去年,我們還進行了案例研究,教你如何使用“瞭解你的資料”工具來探索資料集中的性別偏見和年齡偏見等問題。

​谷歌大神Jeff Dean領銜,萬字展望5大AI趨勢
圖丨“瞭解你的資料”截圖顯示了描述吸引力和性別詞彙之間的關係。例如,“有吸引力的”和“男性/男人/男孩”同時出現 12 次,但我們預計偶然出現的次數約為 60 次(比例為 0.2 倍)。另一方面,“有吸引力的”和“女性/女人/女孩”同時出現的概率是 2.62 倍,超過預計偶然出現的情況。

因為動態使用基準測試資料集在機器學習作領域中扮演著核心角色,瞭解它也很重要。儘管對單個資料集的研究已經變得越來越普遍,但對整個領域的動態使用資料集的研究仍然沒有得到充分探索。在最近的研究工作中,我們第一個發表了關於動態的資料集建立、採用和重用的大規模經驗性分析。這項研究工作為實現更嚴格的評估,以及更公平和社會化的研究提供了見解。

對每個人來說,建立更具包容性和更少偏見的公共資料集是幫助改善機器學習領域的一個重要方法。2016 年,我們釋出了開放影像(Open Images)資料集,它包含了約 900 萬張圖片,這些圖片用影像標籤標註,涵蓋了數千個物件類別和 600 類的邊界框標註。

去年,我們在開放影像擴充套件(Open Images Extended)集合中引入了包容性人物標註(MIAP)資料集。該集合包含更完整人類層次結構的邊界框標註,每個標註都帶有與公平性相關的屬性,包括感知的性別和年齡範圍。隨著人們越來越致力於減少不公平的偏見,作為負責任的人工智慧(Responsible AI)研究的一部分,我們希望這些標註能夠鼓勵已經使用開放影像資料集的研究人員在他們的研究中納入公平性分析。

我們的團隊並不是唯一一個建立資料集來改善機器學習效果的團隊,我們還建立了“資料集搜尋”(Dataset Search)方法,使得無論來自哪裡的使用者都可以在我們的幫助下發現新的和有用的資料集。

社群互動:


谷歌非常重視應對網路暴力問題,包括使用極端語言,發表仇恨言論和散播虛假資訊等。能夠可靠、高效和大規模地檢測到這些行為,對於確保平臺安全至關重要,同時也能避免機器學習通過無監督學習的方式從網路上大量複製這些負面資訊。在這方面,谷歌開創了領先的 Perspective API 工具。但是如何在大規模場景中精準地檢測出有害資訊仍然是一個複雜的問題。在最近,我們與不同的學術夥伴合作,引入了一個全面的分類法來應對不斷變化的網路仇恨和網路騷擾情況。谷歌還對如何發現隱蔽性網路暴力,如微歧視進行了研究。通常,微歧視在網路暴力的問題中容易被忽視。我們發現,對微歧視這種主觀概念進行資料註釋的傳統方法很可能將少數族裔邊緣化。因此谷歌提出用多工框架來解決問題的新的分類建模方法。此外,谷歌的 Jigsaw 團隊與喬治華盛頓大學(George Washington University)的研究人員合作,通過定性研究和網路層面的內容分析,研究了極端的仇恨群體如何在社交媒體平臺上散播虛假資訊。

另一個潛在的問題是,機器學習演算法生成的模型有時會產生缺乏證據支援的結果。為了在問題回答、總結和對話中解決這一問題,谷歌開發了一個新的框架來衡量演算法結果是否可以歸因於特定的來源。我們釋出了註釋指南,並證明可以使用這項可靠的技術來對候選模型進行評估。

模型的互動式分析和除錯仍然是負責任地使用機器學習語言的關鍵。谷歌對 Language Interpretability Tool 的技術和功能進行了更新。更新包括對影像和表格資料的支援,從 What-If Tool 中繼承下來的各種功能,以及 Testing with Concept Activation Vectors 技術對公平性分析的內建支援。機器學習系統的可解釋性也是谷歌提出的“負責任的 AI 願景”(Responsible AI vision)的關鍵部分。在與 DeepMind 的合作下,谷歌開始瞭解自我訓練的AlphaZero國際象棋系統是如何獲取人類的象棋概念的。

谷歌還在努力拓寬“負責任的人工智慧”的視角和格局,使其超越西方的侷限。一項最近的研究提出在非西方背景下,基於西方機構和基建的演算法公平概念並不適用。研究為印度的演算法公平研究提供了新方向和新途徑。谷歌正在幾大洲積極開展調查,以更好地瞭解人們對人工智慧的看法和偏好。西方視角下的演算法公平研究傾向於只關注少數幾個問題,因此導致很多非西方背景下的演算法偏見問題被忽略。為了解決這一差距,我們與密歇根大學(University Of Michigan)合作,開發了一種弱監督薄的自然語言處理(NLP)模型,以便在更廣泛的地理文化語境中檢測出語言偏見,反映人類在不同的地理環境中對攻擊性和非攻擊性語言的判斷。

此外,谷歌還探索了機器學習在發展中國家的應用,包括開發一個以農民為中心的機器學習研究方案。通過這項工作,我們希望鼓勵人工智慧領域更多思考如何將機器學習支援的解決方案帶給千萬小農戶,以改善他們的生活和社群。

讓整個社會的利益相關方參與到機器學習研發部署的各階段是谷歌正在努力的方向,這讓谷歌牢記什麼才是最需要解決的問題。本著這一原則,我們和非營利組織負責人、政府和非政府組織代表以及其他專家之間舉行了健康公平研究峰會(Health Equity Research Summit),討論如何將更多的公平帶入整個機器學習的生態系統,使公平原則從最初的解決問題貫穿到結果評估的最後一步。

從社會出發的研究方法讓谷歌在機器學習的系統中就思考數字福利和種族平等問題。谷歌希望更多瞭解非洲裔美國人對 ASR 系統的體驗。谷歌也在更廣泛地聽取公眾的意見,以瞭解機器學習如何在重大生活事件中提供幫助,例如提供家庭照顧。

隨著機器學習能力的提高和在許多領域的影響,機器學習中的隱私保護是一個研究重點。沿著這個思路,我們力求解決大型模型中的隱私問題。谷歌既強調訓練資料可以從大型模型中提取,也指出瞭如何在大型模型(例如 BERT)中實現隱私保護。除了上面提到的聯邦學習和分析技術,我們還一直在使用其他原則性和實用性的機器學習技術來保護隱私。例如私有聚類、私有個性化、私有矩陣補全、私有加權取樣、私有分位數、半空間的私有穩健學習,以及私有 PAC 學習。此外,我們一直在擴充套件可針對不同應用和威脅模型定製的隱私概念,包括標籤隱私和使用者與專案級別隱私。

資料集:

谷歌認識到開放資料集對機器學習和相關研究領域的普遍價值,我們繼續擴大我們的開源資料集和資源,並在 Google DataSet Search 中增加了開放資料集的全球索引。今年,我們釋出了一系列各個研究領域的資料集和工具:

​谷歌大神Jeff Dean領銜,萬字展望5大AI趨勢

總結

學術研究往往要經歷多年才能在現實世界產生影響。人工智慧領域先驅的工作現在對現在的谷歌產品和全世界都產生了戲劇性的影響。對 TPU 等機器學習加速器和 TensorFlow、JAX 等軟體的開發經取得了豐碩成果。谷歌在自己的產品中正越來越多地使用機器學習模型,因為它功能強大,在效能關鍵型的實驗和生產中表現優異。在建立 Seq2Seq、Inception、EfficientNet 和 Transformer 等模型的過程中對模型結構的研究正在推動語言理解、視覺、語音識別等領域的進步。語言、視覺和語音識別等領域對解決問題具有變革性,因此,這型別的機器學習模型被廣泛部署用於許多產品中,包括 Search, Assistant, Ads, Cloud, Gmail, Maps, YouTube, Workspace, Android, Pixel, Nest 和 Translate。

對機器學習和電腦科學來說,這是一個激動人心的時代。通過處理語言、視覺和聲音,計算機理解周圍的世界並與之互動的能力在不斷提高。同時計算機也在不斷為人類開拓新疆界貢獻力量。前文所述的五個方面正是這漫長旅程中的許多進步的節點!

原文連結:
https://ai.googleblog.com/2022/01/google-research-themes-from-2021-and.html

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562039/viewspace-2852145/,如需轉載,請註明出處,否則將追究法律責任。

相關文章