吳恩達:以資料為中心的人工智慧

banq發表於2022-02-13

吳恩達在 2000 年代後期,率先使用圖形處理單元 (GPU) 與史丹佛大學的學生一起訓練深度學習模型,並於 2011 年共同創立了Google Brain ,然後在百度擔任了三年的首席科學家,在那裡他幫助建立了中國科技巨頭的人工智慧集團。因此,當他說他已經確定了人工智慧的下一個重大轉變時,人們會傾聽。這就是他在IEEE Spectrum獨家採訪中告訴的內容摘要:

 

在過去十年左右的時間裡,深度學習的巨大進步是由越來越大的模型處理越來越多的資料推動的,這是不可持續的。我們已經在 NLP [自然語言處理] 中看到了這種巨大基礎模型。(banq注:GPT-3 之類巨大模型),它仍然有動力。話雖如此,它只適用於某些問題,還有一系列其他問題需要小資料解決方案。

  

計算機視覺的基礎模型是什麼意思?

這是Percy Liang和我在史丹佛的一些朋友創造的一個術語,指的是非常大的模型,在非常大的資料集上訓練,可以針對特定應用進行調整。例如,GPT-3是 [用於 NLP] 的基礎模型的一個示例。基礎模型作為開發機器學習應用程式的新正規化提供了很多希望,但在確保它們合理公平且沒有偏見方面也面臨挑戰,特別是如果我們中的許多人將在它們之上構建。

  

建立視訊基礎模型需要做什麼??

我認為存在可擴充套件性問題。處理大量視訊影像所需的計算能力非常重要,我認為這就是為什麼基礎模型首先出現在 NLP 中的原因。

話雖如此,過去十年發生的很多事情是深度學習發生在面向消費者的公司中,這些公司擁有龐大的使用者群,有時是數十億使用者,因此資料集非常大。雖然機器學習的正規化在消費軟體中推動了很多經濟價值,但我發現這種規模化的方法不適用於其他行業。

  

如何定義以資料為中心的人工智慧,你為什麼認為它是一種運動?

以資料為中心的人工智慧是系統地設計成功構建人工智慧系統所需的資料的學科。對於人工智慧系統,你必須在程式碼中實現一些演算法,比如神經網路,然後在你的資料集上對其進行訓練。

過去十年的主要範例是下載資料集,而您則專注於改進程式碼。

多虧了這種正規化,在過去十年中,深度學習網路得到了顯著改進,以至於對於許多應用程式來說,程式碼——神經網路架構——基本上是一個已解決的問題。因此,對於許多實際應用而言,現在將神經網路架構保持固定,並尋找改進資料的方法會更有效率。

以資料為中心的人工智慧運動比一家公司或一組研究人員要大得多。

我認為重點必須從大資料轉向優質資料。擁有 50 個精心設計的示例足以向神經網路解釋您希望它學習什麼。

 

當您談論僅使用 50 張影像來訓練模型時,這是否真的意味著您正在採用在非常大的資料集上訓練的現有模型並對其進行微調?或者你的意思是一個全新的模型,它的設計目的是隻從那個小資料集中學習?

如果您可以開發工具來標記資料不一致的地方,併為您提供一種非常有針對性的方法來提高資料的一致性,那麼這將是獲得高效能系統的更有效方法。

收集更多資料通常會有所幫助,但如果你試圖為所有事情收集更多資料,那可能是一項非常昂貴的活動。

例如,如果您有 10,000 張影像,其中 30 張影像屬於一個類別,而這 30 張影像的標籤不一致,那麼我們要做的一件事就是構建工具來吸引您注意不一致的資料子集。因此,您可以非常快速地重新標記這些影像以使其更加一致,從而提高效能。

  

當您談論工程資料時,您的確切意思是什麼?

在 AI 中,資料清洗很重要,但資料清洗的方式通常是非常手動的方式。例如,我曾經發現當背景中有汽車噪音時,語音識別系統的效能很差。知道這一點讓我能夠在後臺收集更多有汽車噪音的資料,而不是試圖為所有事情收集更多資料,這將是昂貴且緩慢的。

 

使用合成資料怎麼樣,這通常是一個好的解決方案嗎?

我認為合成資料是以資料為中心的人工智慧工具箱中的一個重要工具。在 NeurIPS 研討會上,Anima Anandkumar做了一個關於合成資料的精彩演講。我認為合成資料的重要用途不僅僅是作為增加學習演算法資料集的預處理步驟。我希望看到更多工具讓開發人員使用合成資料生成作為迭代機器學習開發閉環的一部分。

 

合成資料可以讓您在更多資料集上嘗試模型嗎?

並非如此。這裡有一個例子。比方說,你試圖檢測智慧手機外殼的缺陷。智慧手機上有許多不同型別的缺陷。它可能是劃痕、凹痕、坑痕、材料變色、其他型別的瑕疵。如果你訓練了模型,然後通過誤差分析發現它總體上做得很好,但在坑痕上表現得很差,那麼合成資料的生成可以讓你以更有針對性的方式解決這個問題。你可以只為坑痕類別生成更多的資料。

合成資料生成是一個非常強大的工具,但有很多更簡單的工具我會經常先嚐試。例如資料增強、提高標籤一致性,或者只是要求工廠收集更多資料。

 

你認為人們瞭解你正在做的工作或以資料為中心的人工智慧運動還有什麼重要的嗎?

在過去十年中,人工智慧的最大轉變是向深度學習的轉變。我認為在這十年中,最大的轉變很可能是轉向以資料為中心的人工智慧。隨著當今神經網路架構的成熟,我認為對於許多實際應用來說,瓶頸將是我們能否有效地獲取開發執行良好系統所需的資料。以資料為中心的人工智慧運動在整個社群擁有巨大的能量和動力。我希望更多的研究人員和開發人員能夠加入並致力於它。

 

 

相關文章