黃仁勳新訪談:OpenAI是這個時代最具影響力公司之一,馬斯克19天創造工程奇蹟
机器之心發表於2024-10-21
10 月 4 日,播客節目 BG2(Brad Gerstner 和 Clark Tang)邀請到了英偉達 CEO 黃仁勳,他們一起討論了 AGI、機器學習加速、英偉達的競爭優勢、推理與訓練的重要性、AI 領域未來的市場動態、AI 對各個行業的影響、工作的未來、AI 提高生產力的潛力、開源與閉源之間的平衡、馬斯克的 Memphis 超級叢集、X.ai、OpenAI、AI 的安全開發等。近日,BG2 釋出了這期播客節目。機器之心簡要整理了其中的關鍵資訊。Brad Gerstner:今年 AI 領域的主題是「向 AGI 擴充套件」。我們先進行一個思想實驗:如果我把 AGI 看作是口袋中的個人助理,它知道有關我的一切,可以與我溝通、幫我訂酒店、預約醫生…… 你認為我們什麼時候能有這種形式的個人助理?黃仁勳:很快就會以某種形式實現(soon in some form)。這種助理會隨時間變得越來越好。這就是技術之美。開始時它會變得很有用處,但並不完美,然後它會越來越完美。Gerstner:伊隆・馬斯克曾經說過真正重要的是變化速度(rate of change),看起來變化速度已經提升了很多。你認為現在是變化速度最快的時候嗎?黃仁勳:確實是。我們已經重新發明了計算,因為我們已經在過去 10 年中將計算的邊際成本降低了 10 萬倍,而按照摩爾定律預測,這個倍數應該是 100 倍左右。我們透過多種途徑做到了這一點。一是引入了加速計算 —— 將在 CPU 上效率不高的計算放到了 GPU 上。我們還引入了新的數值精度、提出了新的架構、發明 Tensor Core、NVLink 和 InfiniBand、HBM 高速記憶體。這些加在一起並大規模擴充套件,可說是實現了超級摩爾定律的創新速度。這樣帶來的一個驚人結果是從人類程式設計邁向了機器學習,而機器學習的速度很快。這其中要用到張量並行化、工作流程並行化等各種並行化,這能幫助我們更快地發明新演算法。回顧過去,在之前的摩爾定律時代,軟體是靜態的,硬體以摩爾定律增長。後來,我們更多談論的是軟體的擴充套件(scaling)—— 比如模型大小和資料集規模的擴充套件。如果模型大小和資料集都增加一倍,那麼所需的計算能力要增長 4 倍。而現在,我們又開始談論後訓練和推理階段的擴充套件了。以前人們覺得訓練很難,推理很簡單,但現在一切都變困難了。人們現在也在研究快速思考和慢速思考的概念,還有推理、反思、迭代和模擬等等。Clark Tang:我們知道也有人在研發新晶片,有時候他們能做出一些浮點數更高或者其它效能更優的晶片。但英偉達有自己的「護城河」,那就是你們擁有從硬體到軟體的整個堆疊。你覺得這三四年來你們的護城河是變大了還是變小了?黃仁勳:有更高算力的晶片確實很重要,但不幸的是,那是老式思維 —— 認為軟體是靜態的,改進系統的最好方法是生產更快的晶片。但我們認識到機器學習不是人類程式設計,它並不只與軟體有關,而是涉及整個資料管道。機器學習就像是一個飛輪,能讓資料科學家和研究者更有生產力,而很多人沒有認識到:一開始啟動這個飛輪的是讓 AI 去調整資料,而那個 AI 本身就已經很複雜了。現在我們有合成資料生成以及各種調整資料的方法,這方面的 AI 也越來越聰明。也就是說在訓練之前,就已經涉及到大量資料處理了。很多人認為 PyTorch 就是一切了,但不要忘了,PyTorch 之前有大量工作,PyTorch 之後也有。這就像是一整套飛輪。我們需要設計一個計算系統讓這個飛輪儘可能有效地運轉。訓練只是其中一環。而這個飛輪的每個環節都很困難。OpenAI、X、DeepMind 他們做的事情並不簡單。就算你能加速其中一個環節,也並不代表你能夠加速整個流程。而我們能夠加速整個流程。以物理 AI 和影片處理系統為例,每秒處理的資料量可高達 TB 級。我們需要一個工作流程將這樣龐大的資料變成訓練可用的資料,而這個過程可以使用 CUDA 來加速。Tang:現在人們主要關注文字模型,但未來是影片模型以及 o1 這樣的文字模型。這都需要在得到結果之前處理大量資料。黃仁勳:AI 行業投入了海量技術和努力來訓練語言模型,而現在我們可以在每一步都使用 LLM。Gerstner:也就是說,從整個流程上看,英偉達的優勢比三四年更大了。也就是在整體堆疊方面,你們在改進每一個元件。但是其它企業有什麼優勢嗎,比如英特爾?黃仁勳:英特爾是一家了不起的公司,因為它可能是第一家非常擅長製造過程工程、製造的公司。他們設計生產了越來越快的 x86 晶片。我們公司的不同之處在於,我們認識到,並行處理並不需要每個電晶體都是很棒,而序列處理需要每個電晶體都很棒。並行處理需要大量電晶體才能更具成本效益。我寧願多 10 倍的電晶體,但每個電晶體慢 20%,也不要電晶體減少 10 倍,速度提高 20%。而他們的想法剛好相反。平行計算和並行處理很難,因為每個演算法都需要不同的重構方式和架構演算法。我們徹底改變了深度學習,因為我們開發了一個軟體庫 cuDNN。但人們很少談論它,因為它在 PyTorch 和 TensorFlow 等工具框架的下面一層,我們還有其它特定領域的軟體庫,比如 cuQuantum、RAPIDS。如果我們沒有發明這些演算法,那麼那些應用就無法執行。所以數學才是英偉達真正擅長的演算法。在上層科學和底層架構之間的融合,才是我們真正擅長的地方。Tang:現在人們都在關注推理。你認為現在我們處於推理時代嗎?黃仁勳:其實訓練就是大規模推理。如果訓練得很好,那麼推理也會做得很好。如果你基於這個架構構建,那麼就能在這個架構上執行,當然你也可以針對其它架構進行最佳化。當然,在資本投入方面,當你訓練新模型時,你希望用你最好的新裝置進行訓練。而你之前的裝置可以用於推理。這對你來說就是免費的。為此,我們非常重視確保相容性,這樣舊裝置也能出色地發揮作用。我們也投入了大量精力來不斷地重新發明新演算法,這樣當時機成熟時, Hopper 架構會比他們購買時好兩、三、四倍。但同時,你的基礎設施仍然能有效執行。因此,我們在改進演算法和框架方面的所有工作都有助於各種安裝基礎。Sam 告訴我他們剛剛停用了 OpenAI 的 Volta 基礎設施。另外,我們也希望在雲端創造的東西也能在邊緣裝置上完美地執行,所以這種架構相容性很重要。為訓練 LLM 設計新架構讓我們受益,我們也在思考如何在某一天創造出優秀的推理架構。黃仁勳:如何構建優秀的推理模型架構,以便在將來某一天實現高效的推理能力。我們一直在思考如何設計迭代型推理模型,以及如何建立具有互動體驗的推理模型。對於個人智慧體,你肯定不希望它在回應你之前需要長時間思考,而是希望它能夠快速與你互動。因此,我們設計了 NVLINK,這樣一來,當訓練完成後,這些系統在推理效能上也表現得非常出色。我們的目標是最佳化首個 token 的響應時間,實際上這是非常難以實現的。因為第一個 token 需要大量頻寬, 而且如果你的上下文也很豐富,那麼你就需要大量的浮點運算(FLOPS)。因此,為了實現幾毫秒的響應時間,你需要無限的頻寬和無限的 FLOPS。這樣的架構真的很難實現,我們為此發明了 Grace Blackwell NVLink 。Gerstner:早些時候我和 Andy Jassy 共進晚餐,Andy 說 NVIDIA 是非常重要的合作伙伴,未來也是,世界依賴於 NVIDIA。所以,當你考慮到正在建造的定製化 ASIC,可能是 Meta 的推理加速器,或者亞馬遜的 Trainium,還有谷歌的 TPUs,考慮到現今的供應短缺,這些情況是否改變了這種動態?黃仁勳:我們正試圖做不同的事情。正如你所知,NVIDIA 正嘗試為這個新的世界 —— 機器學習世界、生成式 AI 世界、智慧體世界 —— 構建一個計算平臺。在經歷了 60 年的計算技術發展之後,我們徹底改革了整個計算堆疊,從程式設計到機器學習軟體編寫方式,從 CPU 到 GPU 的軟體處理方式,從傳統軟體到人工智慧的應用轉變,從軟體工具到人工智慧的轉變。因此,計算堆疊和技術堆疊的每一個方面都已經發生了變化。我們想要建立的是一個無處不在的計算平臺,這實際上是我們工作的複雜性所在。如果你考慮我們所做的事情,我們正在構建一個完整的 AI 基礎設施,並將其視為一臺計算機。我曾經說過,資料中心現在是計算的單位。當我想到一臺計算機時,我不只是想到那個晶片,我想到的是整體,包括軟體和內部的所有機械裝置,這是我的計算機。我們每年都在嘗試構建一臺全新的計算機,這是之前從未有人做過的事情。我們每年都能交付兩到三倍的效能提升,每年將成本降低兩到三倍,每年將能效提高兩到三倍。因此,我們要求我們的客戶不要一次性購買所有裝置,而是每年購買一點。這樣做的原因是,我們希望他們能夠將成本平均分攤到未來。所有這些都是架構相容的。黃仁勳:整個電子生態系統如何致力於與我們合作,最終構建一個整合到各種不同生態系統中的計算機方塊,並且協調工作非常流暢。顯然,這涉及 API、方法論、商業流程和設計規則。我們發明了龐大的計算基礎設施,它被整合到了每一個地方,可以透過 Dell 或 HP 銷售,也可以在雲端託管,甚至應用於邊緣計算,人們在機器人系統中使用它,包括人形機器人和自動駕駛汽車,所有這些都是架構相容的。至於我們公司,我們不是為了從別人那裡奪取市場份額,而是為了創造市場。如果你看看我們公司的介紹,你會發現我們從不談論市場份額,我們討論的全是如何解決下一個問題,如何做得更好,如何加快從一年縮短到一個月的速度。我們考慮所有這些不同的事情,但我們非常清楚我們的使命是非常單一的,唯一的問題是這個使命是否必要。所有偉大的公司都應該具有這樣的問題:你在做什麼,它是否必要,它是否有價值,它是否有影響,它是否幫助了人們。作為一位開發者,如果你是一個 AI 初創公司,正在決定如何成立公司,你唯一不需要做的選擇是支援哪一種 ASIC。如果你支援 CUDA,你可以走向全世界,以後也可以隨時改變主意。我們是進入 AI 世界的入口,一旦你決定加入我們的平臺,其他的決定可以推遲,你總是可以稍後自己構建 ASIC,我們對此並不反感。我們與各大雲服務提供商(例如 Google Cloud Platform、Azure)合作時,我們會提前幾年向他們展示我們的路線圖,儘管他們不會向我們展示他們的 ASIC 路線圖,這也不會讓我們感到被冒犯。我們的路線圖在 GTC 上是透明的。即使合作伙伴正在構建自己的 ASIC,我們也沒有任何問題。Gerstner:你最近說過人們對 Blackwell 的需求簡直瘋狂。你說你工作中最困難的部分之一是在計算資源短缺的世界中向人們說「不」。回想 2023 年初,那時對 Nvidia 全年的預測是 260 億美元的收入,但實際上你們做到了 600 億美元,是吧?那是在 2022 年 11 月,有人告訴我如果你無法算出投資我們公司的利潤,那就買 Nvidia 股票吧,因為全世界的人都在試圖獲取 Nvidia 晶片來構建將改變世界的應用程式。當然,ChatGPT 的出現標誌著新紀元的到來。你曾用非常簡單的英語說,Blackwell 的需求是瘋狂的,而且將來也會這樣,儘管未來是未知且無法預測的。黃仁勳:談論未來最好的方式是從基本原理出發進行推理。那麼問題來了,我們正在做的事情的基本原理是什麼?首先,我們在做什麼?我們正在做的第一件事是重新定義計算,未來的計算方式將高度依賴機器學習。現在幾乎每一個應用程式,比如 Word、Excel、PowerPoint、Photoshop,它們都是手工設計的。我向你保證,未來它們將高度依賴機器學習,而且還會有智慧體幫助你使用它們。所以,我們現在可以肯定地說,我們已經重新定義了計算,整個計算技術堆疊正在被重新定義。此外,軟體將會有所不同,軟體能寫的內容將會有所不同,我們使用軟體的方式也會有所不同,所以這些都是基本事實了。黃仁勳:OpenAI 是我們這個時代最具影響力的公司之一Gerstner:眾所周知,OpenAI 最近籌集了 65 億美元,估值約為 1500 億美元。據報導,他們今年的收入或運營收入約為 50 億美元,明年可能達到 100 億美元。如果你看看 OpenAI 現在的業務,其收入大約是谷歌首次公開募股時的兩倍。他們大約有 2.5 億的周平均使用者數,我們估計這是谷歌 IPO 時的兩倍。請和我們談談 OpenAI 作為合作伙伴對你的重要性,以及 OpenAI 作為推動公眾對 AI 的認識和使用的重要作用。黃仁勳:OpenAI 確實是我們這個時代最具影響力的公司之一,一家純粹追求通用人工智慧(AGI)願景的 AI 公司。不管它的定義是什麼,我幾乎認為定義本身並不完全重要。在它達到任何人對 AGI 的定義之前,我們將會把它用到極致。你所要做的就是去和數字生物學家、氣候技術研究者、材料研究者、物理科學家、天體物理學家、量子化學家交談,去問影片遊戲設計師、製造工程師、機器人學家他們的感受。無論你想選擇哪個行業,深入其中和那些重要的人交談,問他們人工智慧是否已經革新了他們的工作方式。然後你收集這些資料點,你對此持有多大的懷疑態度。因為他們討論的不是人工智慧作為一個概念上的好處,他們是在討論現在就在使用的 AI 所帶來的好處。現在,農業技術、材料技術、氣候技術等等正在進步,AI 正在幫助研究者推進工作。現在,正如我們所說,每一個行業、每一家公司、每一所高校,將以某種方式改變業務。這種改變今天就發生了。所以,我認為 ChatGPT 的覺醒引發了這一切,這完全令人難以置信。我喜歡他們的速度和他們推動這一領域發展的獨特目標,這真的意義重大。Gerstner:他們在經濟引擎中構建,以資助下一個模型前沿。我認為矽谷日益達成的共識是整個模型層的商品化正在使得很多人能夠以非常低的成本構建模型。所以早期,我們有很多模型公司。很多人質疑這些公司是否能構建在經濟引擎上的逃逸速度,繼續資助下一代模型。我個人認為,這就是為什麼你看到了整合。顯然,OpenAI 已經達到了那種逃逸速度,他們可以資助自己的未來。對我來說不確定的是,其他公司是否也能做到。黃仁勳:首先,模型和 AI 之間存在根本的不同。模型是 AI 的一個基本成分。它是必要的,但不是充分的。比如用於自動駕駛汽車的人工智慧與用於人形機器人的人工智慧相關,但並不是一樣的。因此,你必須瞭解分類。現在你只需將模型一詞替換為 GPU。有些公司非常擅長製造 GPU,但卻不知道如何成為一家加速計算公司,現在不止一家公司在製造 GPU,但它們並不是加速計算公司。儘管有些加速器可用於應用加速,但這與加速計算公司是不同的。你必須決定你想成立什麼樣的公司,在不同領域可能都有機會。但就像建立公司一樣,你必須留意生態系統的變化以及隨著時間的推移哪些東西會被商品化,認識到什麼是功能,什麼是產品,什麼是公司。你可以用很多不同的方式來思考這個問題。黃仁勳談 xAI:別人用 4 年完成的事情,埃隆用了 19 天Gerstner:當然,有一家新入局者既有錢、又有智慧、還有野心,那就是 xAI。你認為他們有能力建立超級叢集嗎?黃仁勳:答案是肯定的。首先是對他們成就的認可。從概念到建成一個準備好安裝 Nvidia 裝置的資料中心,再到通電,連線好一切並進行首次訓練,這一切都值得讚揚。在如此短的時間內建造一個巨大的工廠,包括液冷、供電、獲得許可,這簡直像超人一樣。據我所知,世界上只有一個人能做到這一點。埃隆在理解大型系統的工程和建設以及資源整合方面是獨一無二的,這簡直令人難以置信。當然,他的工程團隊也是非凡的,軟體團隊、網路團隊和基礎設施團隊也很棒。從規劃開始,與我們的工程團隊、網路團隊、基礎設施計算團隊、軟體團隊一起,所有的準備工作都提前完成。然後所有的基礎設施、後勤以及在那一天進場的所有技術和裝置、影片基礎設施和計算基礎設施等等,都在 19 天內完成,這實在是不可思議。所以我認為埃隆所取得的成就是獨一無二、前所未有的。十萬個 GPU,這簡直是地球上搭建最快的超級計算機叢集。通常來說,你要建造的超級計算機叢集需要三年時間來規劃,然後交付裝置、安裝和執行還需要一年時間。別人要用 4 年完成的事情,埃隆只用了 19 天。Brad Gerstner:那我們再談談 OpenAI 的 o1。Noam Brown 是該模型的核心貢獻者之一,他在 Meta 工作時曾有 Libratus、Pluribus 和 Cicero 等成果。Inference-Time 推理(Reasoning)作為擴充套件智慧的全新載體,與僅僅構建更大的模型截然不同,這有多重要?黃仁勳:這是一件大事。我認為,很多智慧無法先驗地完成,甚至很多計算都無法重新排序。無序執行可以優先完成,很多事情只能在執行時完成。無論你是從電腦科學的角度還是從智慧的角度來思考,其中大多數的內容都需要考慮上下文以及正在尋找的答案型別。有時,一個快速的答案就足夠了。這取決於答案的結果,取決於答案的使用屬性。所以,有些答案需要花一個晚上,有些答案需要一週的時間。所以我完全可以想象我給人工智慧傳送一個提示,然後告訴它,考慮一個晚上,不要馬上告訴我,然後明天再回來告訴我。我認為從產品的角度來看,智慧的質量和細分會產生一擊即中的版本,當然也會有一些需要五分鐘的版本。Brad Gerstner:「智慧層」會將這些問題導向正確的模型,對症下藥。使用高階語音模式和 o1 預覽版,我輔導了兒子的 AP 歷史考試,就像有世界上最好的歷史老師坐在旁邊思考這些問題。又回到了這個問題上,你知道,你今天 40% 以上的收入都是推理得來的,且推理又得益於推理鏈。未來還會帶來十億倍的增長,是這樣嗎黃仁勳:沒錯,這是大多數人還沒有完全內化的部分。這就是我們說的工業革命。Brad Gerstner:所以每個人都非常關注英偉達,在訓練更大的模型。想問:是不是如果收入比例變為 50:50,你未來會做更多的推理呢?訓練永遠是重要的,但推理的增長會比我們希望的多得多。Brad Gerstner:你們是否已經使用了推理鏈等工具來改善自己的業務?黃仁勳:是的,我們今天的網路安全系統離不開我們自己的智慧體。智慧體幫助設計晶片,我們有 AI 晶片設計師、AI 軟體工程師、AI 驗證工程師。我們在內部組建了這些團隊,我們有能力而且願意利用這個機會探索技術。Brad Gerstner:英偉達很獨特。每個員工大約 400 萬的收入,每個員工有大約 200 萬的利潤或自由現金流。你建立了一種效率文化,而這種文化真正釋放了創造力、創新、所有權和責任。你打破了職能管理的模式。每個人都喜歡談論你所有的直接下屬。AI 的槓桿作用將繼續讓你在高效的同時保持超級創造力。黃仁勳:毫無疑問。英偉達現在有 3.2 萬名員工,我希望英偉達某天將成為一家擁有 5 萬名員工的公司,同時會有 1 億個 AI 輔助我們。我們將有一個 AI 擅長事務的目錄。我們的收件箱裡面也會充滿這些擅長不同事務的 AI 發來的資訊。AI 也會招募其它 AI 來解決問題,它們還會在 Slack 頻道里面交流。當然,它們也會與人類交流。可以說,我們就是一個龐大的員工群體,其中一些是數字化的 AI,另一些則是生物體的人類。我還希望某天其中一些會是電子化的機器人。Brad Gerstner:人們常誤解 AI 會替代人類的工作。但你公司的員工數量還在增長,並且你會用 5 萬人完成原本 15 萬人才能完成的工作。黃仁勳:AI 並不會接替每一項工作。AI 將極大地影響人們看待工作的方式。讓我們承認這一點,AI 有潛力做很棒的好事,它也有可能造成傷害。被忽視的部分是,當公司使用 AI 變得更有效率時,就可能帶來更好的收益或更好的增長。當這種情況發生時,CEO 的下一封電子郵件很可能就不是裁員。Brad Gerstner:因為業務在增長,需要更多人。黃仁勳:這是因為我們有更多的想法可以探索,我們需要人在自動化之前進行思考。當然,AI 也可以幫助我們思考,但也仍然需要我們去弄清楚要解決什麼問題。人類可做的事情有很多。因此,隨著生產力的提高,我們將僱傭更多的人。人們常忘記這一點。回顧過去,顯然我們今天比 200 年前有更多的想法。因此 GDP 更高,就業人數更多了,即便我們一直在大量進行自動化。Brad Gerstner:有調查說,過去十年是生產力增長最慢的十年。人們還在辯論其原因,但如果世界就像你剛才所描述的那樣,我們將利用和製造智慧,那麼我們的生產力是正處於急劇擴張的邊緣嗎?黃仁勳:我們希望如此。當然,你知道,我們生活在這個世界上,所以我們有直接的證據。現在,一個獨立的研究人員就能夠使用 AI 以難以想象的非凡規模探索科學。這就是生產力。另外,我們正在設計非常驚人的晶片,其複雜性呈指數級增長,而公司的員工基礎並不是衡量生產力的標準。我們開發的軟體越來越好,因為我們在使用 AI 和超級計算機來幫助我們。因此,很多行業都有這樣的增長。毫無疑問,智慧是世界上已知的最有價值的商品。現在我們要大規模生產它。我們將被 AI 包圍。如果它們做得非常好,比你好得多,會發生什麼?但反思一下,這就是我現在的生活。我有 60 個向我報告的人,他們在各自領域都比我優秀得多。我與他們互動沒有任何問題。對 AI 也是如此。所以我認為人們將會學到的是:他們都將成為 CEO,成為 AI 智慧體的執行長。Brad Gerstner:我們來談談 AI 的安全和監管吧。我們是在正確的道路上嗎?你認為我們該如何確保 AI 是有利的,而不會導致一個反烏托邦的世界。黃仁勳:關於安全的對話非常重要和有益。AI 是一個巨大的神經元網路,是一個很抽象的觀念。人工智慧和大型語言模型確實相關,但並不一樣。現在這方面有很多出色的工作。一、開源模型,這樣一來,整個研究社群、每個行業和每個公司都可以參與 AI,將這種能力用在自己的應用中。二,人們在發明 AI 來保證 AI 安全,人們低估了這方面的技術。比如用 AI 來整理資料、對齊 AI、合成資料來擴充套件 AI 知識、減少幻覺、監控其它 AI、建立安全護欄等等。整個行業都在為之努力,包括方法論研究、紅隊研究、工作流程、模型卡、評估系統、基準測試系統…… 人們正在以非常快的速度構建各種工具。但這些努力都被低估了,沒有得到應有的讚譽。這是這些智慧體、不同功能構建的理由。我們再次回到了第一性原理。Brad Gerstner:我們必須回到開源的話題上。你們釋出了規引數很大、非常重要且可用的開源模型。Brad Gerstner:很明顯的是,Meta 對於業界有重要的開源貢獻。推特上都是大模型開源 vs 閉源的討論。如何保證你們自己的開源大模型一直處於前沿水平?第二個問題,在商業專案中,既有開源大模型,也有閉源模型的情況,是否會是未來合理的生態,這樣安全嗎?黃仁勳:開源 vs 閉源,和安全有關,但不僅僅是安全的問題。舉個例子,用閉源模型顯然是完全沒問題的,這是保持創新所必須的。我全心全意支援這一點。不是封閉或開源,應該是封閉和開源。開源是促進很多行業的必需品,現在如果沒有開源,那麼多科學領域如何發展?它們都從 AI 的發展中受益了。因為他們必須開發自己特定領域的人工智慧,因此必須使用開源模型來開發特定領域人工智慧。它們是相關的,但又不是一回事。只是因為你有一個開源模型並不意味著你就有了人工智慧,所以你必須有那個開源模型來建立人工智慧。所以,金融服務、醫療保健、運輸等一系列行業現在因為開源而活躍。這令人難以置信。Brad Gerstner:你們的開源大模型需求量很大嗎?黃仁勳:首先不得不提的是行業老大 Llama,祖克伯他們的成果太棒了,是難以估量的,很大程度上促進了每一個行業、科技領域。我們把 Nemotron 定位於生成合成資料。直觀的想法是,一個人工智慧會在那裡迴圈生成資料,自我學習,這聽起來很脆弱,你可以無限迴圈多少次,這個迴圈值得懷疑。但這有點像我腦海中的一個畫面 —— 就像你把一個超級聰明的人關進一個舒適的房間,關上門,大約一個月,你知道出來的可能不是一個更聰明的人。但理論上你可以讓兩三個人坐在一起,我們有不同的人工智慧,我們有不同的知識分佈,我們可以互相提問回答,這樣每個人都會變得更加聰明。所以,你可以讓人工智慧模型進行交流、互動,來回辯論,強化學習併合成資料生成,這種想法在直覺上是有道理的。我們的模型 Nemotron-4 340B 是世界上最好的獎勵系統模型。它是最好的批評家,這是一個增強其他所有模型的絕佳模型。所以不管別人的模型有多棒,我都建議使用 Nemotron-4 340B 來增強和改進它。我們已經看到 Llama 變得更好,其他所有模型也都變得更好。Brad Gerstner:我們的採訪快要結束了。Brad Gerstner:作為 2016 年交付了 DGX-1 的人,這真是一段不可思議的旅程,你們走過的旅程既不可思議又令人難以置信。你們存活了下來 —— 從 2016 年的 DGX-1 到 2022 年技術突破的出現。所以有一個問題我也經常被問到,你能夠堅持今天所做的事情多久?60 份報告都在說,英偉達無處不在,你們在引領這場變革。你覺得現在很享受嗎?有沒有想要做的其他事?回答是:這是一段很棒的經歷,我無法想象還能做什麼更好的事了。我認為,我認為不應該給人留下這樣的印象,即我們的工作總是充滿樂趣。我的工作並不總是充滿樂趣,我也不指望它總是充滿樂趣,我曾經期望它總是充滿樂趣。我認為這一直很重要,是的。我不會太認真對待自己,我非常認真地對待工作,我非常認真地對待我們的責任,我非常認真地對待我們的貢獻和我們的時機。這總是充滿樂趣嗎?不是的。但我是不是一直深愛著這份事業?是的。就像所有的事情一樣,無論是家人、朋友、孩子,總是充滿樂趣嗎?不是的。但我們總是深深地愛著他們。所以,我能做多久?真正的問題是,我能堅持多久。這唯一重要的資訊是,這個問題只能用我將如何繼續學習來回答。不過可以確定的是,我今天更加樂觀了。我這麼說不僅僅是因為我們今天的主題,我對自己的能力更加樂觀,保持關注並繼續學習,因為人工智慧。是的,我在使用它,我不知道你們是怎樣的,我每天都在使用 AI。我的每一項研究都涉及到人工智慧,所有的問題,即使我知道答案,我也會用人工智慧驗算一下。令人驚訝的是,我接下來追問的兩三個問題揭示了一些我不知道的東西。你只需要選擇話題。我認為人工智慧作為導師、作為助手、也能作為頭腦風暴的夥伴,仔細檢查我的工作。這是完全革命性的,我是一名資訊工作者,我的輸出是資訊,所以我認為,這一切對社會的貢獻都是非凡的。這樣我就能保持跟進,我就可以繼續做出貢獻。我知道這項工作對我來說非常重要,我想繼續從事下去。我的生活質量令人難以置信。Brad Gerstner:我無法想象你和我已經在這個領域工作了幾十年,我無法想象錯過這一段經歷。這是我們職業生涯中最重要的時刻,我們非常感謝這種合作關係。Brad Gerstner:你會讓 AI 變得更聰明。謝謝你的講述,真的非常享受。https://www.youtube.com/watch?v=bUrCR4jQQg8