Llama 3超大杯有何驚喜?Meta會一直開源嗎?當初為何篤信元宇宙?祖克伯新訪談回應一切

机器之心發表於2024-04-22

昨天凌晨,Meta 突然官宣了 Llama 3,把開源模型的實力又往上提了一截。

Llama 3 總共有三個版本 ——8B、70B 和 405B。其中,8B 和 70B 版本已經開源,405B 版本仍在訓練中。根據現有的評測資料,405B 版本的效能已經逼近 GPT-4(參見《開源大模型 Llama 3 王者歸來!最大底牌 4000 億引數,效能直逼 GPT-4》)。這可能促使 OpenAI 儘早釋出下一代模型,從而保持其最強 AI 模型的地位。

那麼,這個還沒有亮相的 Llama 3 405B 大模型將帶來哪些驚喜?Meta 會繼續堅持開源嗎?Llama 4 以及之後的模型會往哪些方向迭代?之前 Meta 對元宇宙的篤信是出於哪些動力?在最近的一次訪談中,Meta CEO 祖克伯回應了這些問題。

圖片

影片地址:https://www.youtube.com/watch?v=bc6uFV9CJGg&t=17s

他提到,Llama 3 405B 將是一個密集模型,預計年末釋出。此外,他們還計劃到年底擁有約 35 萬塊 GPU,目前已經建立了由 22000 塊 GPU 和 24000 塊 GPU 構建起來的兩個單獨叢集。在談到開源問題時,他類比說,在現有的應用生態系統中,蘋果和谷歌等「守門人」對開發者能夠構建的應用型別擁有很大的控制權,他不想讓 AI 世界也變成這個樣子,因此他對開源持積極態度。他表達了對於一個開放的 AI 生態系統的願景,在這個系統中,開發者不會被少數控制著閉源模型的大公司所限制。

以下是機器之心整理的訪談內容,部分內容存在刪減。

Llama-3 超大杯什麼時候釋出?

Dwarkesh Patel:我們來談談剛釋出的 Llama-3 和 Meta AI 吧。

Mark Zuckerberg:我想大多數人最關心的還是 Meta AI 的新模型,即 Llama 模型的升級版本:Llama-3。我們既會向開發社群開源,也會讓其成為 Meta AI 的助力。Meta AI 值得關注的點有很多,但我認為最重要的是它是目前人們可以使用的最智慧且可自由使用的 AI。我們將把谷歌和 Bing 整合起來用以獲取實時知識。

Meta AI 將會整合進我們的許多應用,包括 Facebook 和 Messenger—— 你可以在它們的搜尋框中任意提問。我們在其中加入了很多創意功能,比如動畫化功能可以將任意圖片變成動畫。

比較震撼眼球的一項更新是它現在能以非常快的速度生成高質量影像,而且它能隨著使用者輸入而實時更新生成結果。

我們未來幾周或幾個月會在一些國家釋出這些應用,但還不會全面鋪開。我認為這會是一個非常重要的事件,是 Meta AI 向前邁出的一大步。

深入到 Meta AI 內部,在技術方面最吸引眼球的當然是 Llama-3。我們訓練了三個版本:8B 和 70B 引數的模型,還有一個 405B 引數的密集模型(還在訓練之中)。8B 和 70B 模型的表現非常激動人心,它們都是同等規模模型的領軍者。

我們還有後續釋出的路線圖,包括多模態、更強大的多語言支援、更大的上下文視窗。我們希望能在今年年末的某個時候釋出 405B 版本。在目前的訓練階段,它的 MMLU 得分已經達到了 85 左右。我們預計完成訓練後它能在許多基準上領先。剛剛釋出的 70B 模型也很出色,MMLU 為 82,數學和推理能力的得分都領先。

Dwarkesh Patel:著實不凡。

Mark Zuckerberg:8B 版本基本上與我們之前釋出的 Llama-2 的最大版本一樣強大,也就是說 Llama-3 的最小版本足以比肩 Llama-2 的最大版本。

買那麼多 GPU 是未卜先知?

Dwarkesh Patel:在深入這些模型之前,我想聊聊過去。大概 2022 年時,你們開始購進 H100。那時候你們的股價不振,人們都很疑惑為什麼要這樣花錢。人們並不看好元宇宙。那時候你怎麼知道要去買 H100 呢?

Mark Zuckerberg:那是因為我們當時正在研究 Reels(一款短影片應用,Tiktok 競品)。我們總是希望有足夠的能力去構建尚不存在的東西。我們當時在研究 Reels,我們需要更多 GPU 去訓練模型。加上我們當時希望在基礎設施方面儘快追趕上 TikTok。我們當時想:「唉,我們必須確保我們再也不這樣落後了。那就訂購足夠訓練 Reels 的 GPU 並且再加一倍吧。」

Dwarkesh Patel:當時你知道這會用於訓練 AI 嗎?

Mark Zuckerberg:我們當時知道這會與訓練大型模型有關。當時我覺得這可能與內容有關 —— 那時候我非常急切地想要為 Reels 和其它內容開發出推薦演算法。現在這成為了 Instagram 和 Facebook 的一大賣點:向人們展示他們可能感興趣的內容,即便他們沒有關注。

事後來看,這是一個非常明智的決定。這都是後見之明 ——「哦,我當時多麼領先。」事實上,我們當時做的大多數決定最後都有不錯的結果,原因不過是我們之前搞砸過,不想再犯同樣的錯了。

何時決定 All in AGI?

Dwarkesh Patel:Facebook AI 研究院已經成立了很長時間了。現在它似乎已經變成了你們公司的核心。你們是從什麼時候開始考慮將造就 AGI 作為自己的使命和關鍵優先事項?

Mark Zuckerberg:確實挺久了。FAIR 成立於大概十年之前。我們的想法是,在創造通用智慧的道路上,我們會得到很多能改善方方面面的不同創新。因此我們並不是將其看作一個產品,它更像是一個研究團隊。過去十年來,它創造了很多提升我們所有產品的東西。它也推動了 AI 領域的發展。

過去幾年隨著 ChatGPT 和擴散模型的出現,這一領域發生了重大轉變,出現了很多會改變人們與應用的互動方式的東西。那時候我們成立了另一個團隊:Gen AI 團隊。其目標是將這些創新引入我們的產品並且構建支援所有這些不同產品的先進基礎模型。

一開始我們想做的東西都與社交有關,比如幫助人們與創作者溝通、幫助人們與企業互動、幫助企業銷售產品或提供客戶服務。還有一些基礎的助理功能,可以用於我們的應用以及智慧眼鏡和 VR 裝置。所以一開始的時候,我們並不完全清楚我們需要完整的 AGI 來支援所有這些用例。但經過多年的研究和實踐之後,這方面變得清晰起來。舉個例子,在我們開發 Llama-2 時,我們並沒有將程式設計看作一個優先事項,因為人們並不會用 WhatsApp 向 Meta AI 提很多程式設計問題。

Dwarkesh Patel:現在他們會問這些了嗎?

Mark Zuckerberg:我不知道。我不確定人們是否會使用 WhatsApp 或 Facebook 或 Instagram 作為 UI 來問與程式設計有關的問題,也許他們會使用我們剛上線的網站 meta.ai。但過去 18 個月的發展已經表明,程式設計對很多領域都很重要,而不僅僅是程式設計領域。即便人們問的問題與程式設計無關,但訓練模型學習程式設計依然有用 —— 這能幫助模型給出更嚴謹的回答,讓模型可以在不同型別的領域執行推理。Llama-3 就是這樣,程式設計能力是我們關注的一大重點,因為這能幫助模型的能力獲得全面的提升。

另一個重點是推理。使用者在與商家或企業等溝通時,不是一問一答就完成了,而是往往涉及到多步互動。很多時候客戶只知道自己的需求,並不知道自己想要什麼產品或服務。這時候光回答字面上的問題是不夠的,還需要推理。

Llama-3 能取代程式設計師嗎?

Dwarkesh Patel:所以 Llama-3 能解決所有這些用例嗎?你認為這個版本足以替代程式設計師嗎?

Mark Zuckerberg:我只是覺得這些能力都會隨時間而進步。

Dwarkesh Patel:但最終能解決,比如 Llama-10?

Mark Zuckerberg:我認為這個問題不簡單。我不確定這些模型是會替代人們更多,還是幫助人們更多。

Dwarkesh Patel:Llama-10 誕生後,程式設計師的生產力能提升 10 倍嗎?

Mark Zuckerberg:我希望會更多。我相信人們的智慧並不存在一個單一閾值,因為人們有不同的技能。我認為未來某個時候,AI 將在大多數事情上超過人類。但我認為這個過程是漸進式的,而且我認為 AGI 並不是一個單一存在,而實際上是不同功能的集合。目前我們關注的一大關鍵功能是多模態,起先是照片、影像和文字,最後到影片。而且我們還很關注元宇宙,因此 3D 模態也很重要。另一個我非常關注的模態是情緒理解(emotional understanding)—— 我還沒看到業界有很多人關注這方面。人腦中有很大部分是專門用於理解別人的表情和情緒。我認為這是一個單獨完整的模態。你也許會說這就是影片或影像,但很顯然這是非常特別的影片或影像。

因此,模型不只是需要具備理解和記憶的能力,還有很多其它不同能力需要掌握。我認為未來我們解決複雜問題時並不會再以查詢視窗為中心,透過輸入上下文來處理。人們會有更加個人化的記憶資料和不同的定製化模型。它們會有各自不同的能力,規模也有大有小。大小模型我們都很關注。Meta AI 這樣的模型執行在大型伺服器上,但我們也希望會有能執行在智慧眼鏡等小型裝置上的模型。因此我們也需要非常高效的模型。

大模型將催生哪些產業級用例?

Dwarkesh Patel:你認為模型推理有什麼百億美元級乃至千億美元級的市場?它有什麼產業級的用例?模擬或者元宇宙?

Mark Zuckerberg:我們猜想這將能改變所有產品。我認為將會出現一種 Meta AI 通用助理產品。這種產品不再是隻會問答的聊天機器人,而是可以完成更復雜任務的系統性模型。這就需要大量的推理和計算。

另一個重要方向是與其它智慧體或人類互動,包括企業業務和創意工作。我的想法是,未來並不只有單一 AI。每家企業都會想要一個代表其利益的 AI。

創意工作也是一個重點。我們平臺有大約 2 億位創作者。他們與各自的社群互動時通常都有模式可循,但他們每天的時間有限。如果我們能創造出可讓創作者擁有的 AI,讓他們以自己的方式去訓練它與自己的社群互動,那必然會是一個非常棒的應用場景。這樣的 AI 會贏得大量的互動參與。

這還只是消費者用例,我和妻子的基金會 Chan Zuckerberg Initiative 在科學方面做了很多工作,其中也包括很多與 AI 相關的工作,這些將能推動科學和醫療等領域的發展。我相信這些最終將能影響產品和經濟的每個方面。

Llama-3 將帶來哪些改進?

Dwarkesh Patel:你提到模型的進步是漸進式的,這是指模型變得更大嗎?還是說使用更好的資料訓練同樣大小的模型讓其變得更強大?

Mark Zuckerberg:我認為我們不知道這個問題的答案。我想一種發展模式是基於 Llama 這樣的模型開發其它應用,也就是針對用例進行微調,比如讓 Meta AI 可以使用谷歌或 Bing 等工具來獲取實時知識。基礎 Llama 模型並不具備這種能力。Llama-2 具備一些,但這是人工設計開發的。Llama-3 開始具備一些類似智慧體的能力。對於 Llama-4,我們的部分目標是讓模型本身具備更多能力。

每一次進步都會出現新的可能性,解鎖出新的用例。

Dwarkesh Patel:你說「讓模型本身具備更多能力」,你是指在你希望模型完成的事情上訓練模型嗎?

Mark Zuckerberg:Llama-2 只能使用非常特定的工具,而 Llama-3 能使用好得多的工具。我們無需人工程式設計就能讓其使用谷歌執行搜尋。它本身就能做到。類似的功能還有程式設計和執行程式碼等。模型既然能具備這樣的能力,我們就能借此一窺未來。我們不必等到開發 Llama-4 時才去構建這些能力,我們現在就能探究它們。我們可以人工編寫一些讓產品更好用的工具,用以臨時過渡。這有助於展現下一版本模型的開發方向。

Dwarkesh Patel:開源社群對 Llama-3 的微調,你最感興趣的是什麼?也許不是對你最有用的那個。

Mark Zuckerberg:我認為有價值的事情,我們可能都會著手構建。我認為你會得到精簡版本、更小的版本。我認為 8B 引數對於很多用例來說還不夠小。隨著時間的推移,我很想得到一個 1-2B 引數的模型,甚至是一個 500M 引數的模型,然後看看你能做些什麼。

如果使用 8B 引數,我們幾乎能與最大的 Llama-2 模型媲美,那麼使用 10 億個引數,你應該能夠做一些有趣且更快的事情。我們也在考慮最佳化模型,但現在 GPU 已經被用來訓練 405B 模型了。

LLama-3 70B 模型還有待發掘的潛力

Dwarkesh Patel:關於 GPU,我記得你說到年底會有 35 萬塊。

Mark Zuckerberg:我們建造了兩個叢集, 每個叢集大約有 22,000 或 24,000 個 GPU。由於我們服務的社群規模之大,我們所需的推理計算量與訓練計算量的比例可能比其他公司高得多。

Dwarkesh Patel:在你們之前分享給我的材料中,我注意到你們用更多的資料來訓練,你能具體談一下嗎?

Mark Zuckerberg:關於 70B 模型,我們發現了一件有趣的事情,我們訓練 token 達到 15 萬億,但在訓練的最後階段模型仍然在學習。假如我們給它更多的 token,模型可能會變得更好。

但是經營一家公司,你需要有所取捨,我問自己是否想要呼叫 GPU 來進一步訓練 70B 模型?還是準備測試 Llama-4 的一些前期假設?我們需要做出決定,我認為 70B 版本的模型已經取得了不錯的平衡。未來會有其他版本,例如 70B 多模態版本,會在未來推出。但最令人著迷的是,目前這些架構可以容納如此多的資料。

Dwarkesh Patel:這真的很有趣。這對未來的模型意味著什麼?你提到 Llama-3 的 8B 比 Llama-2 的 70B 更好。

Mark Zuckerberg:不,不,它幾乎一樣好。我不想過分誇大。它的數量級差不多。

除了能源瓶頸,還有架構瓶頸

Dwarkesh Patel:這是否意味著 Llama-4 70B 會和 Llama-3 405B 一樣好?未來會是什麼樣子?

Mark Zuckerberg:這確實是一個很好的問題,我想沒人會給出答案。世界上最棘手的事情之一就是指數曲線還能持續多久?我認為我們很可能會繼續下去。我認為投資 100 億美元,甚至 1000 億美元來建設基礎設施是值得的,這樣的話,你將會得到一些真正令人驚奇的東西,從而創造出令人驚奇的產品。一般來說,從歷史來看,當你遇到瓶頸時會耗費大量的時間解決。但是現在,也許這些瓶頸很快就會被克服。

Dwarkesh Patel:如果沒有這些瓶頸,世界會是什麼樣子?假設進展以這種速度繼續下去。

Mark Zuckerberg:無論如何,都會遇到不同的瓶頸。在過去幾年中,我認為 GPU 的生產是一個問題。即使有錢支付 GPU 的公司也不一定能夠獲得他們想要的數量,因為存在供應限制。現在我覺得這種情況正在減少。因此,你會看到很多公司現在考慮投資大量資金來構建這些設施。我認為這種情況會持續一段時間。還有一個資本問題,在什麼時候,投入更多的資本就不再具有價效比了。實際上我認為在我們達到這個點之前,你會遇到能源的限制。據我所知,還沒有人建立過一千兆瓦的單一訓練叢集。此外,獲取能源許可會受到政府的嚴格監管。顯然,如果你是在創辦一家小公司,也許你會感覺到這種監管較少。我們與不同的政府和監管機構打交道,我們有很多規則需要遵循,以此確保我們在全球做好工作。但我認為能源無疑是一個巨大的限制。

Dwarkesh Patel:有沒有什麼東西,也許是人工智慧相關的專案,也許不是,即使是像 Meta 這樣的公司也沒有資源?如果完成這項任務是研發預算或資本支出預算的 10 倍,你還會實施嗎?

Mark Zuckerberg:我認為能源問題是其中之一,如果我們有足夠的能源,我們可能會建立比現在更大的叢集。

Dwarkesh Patel:這基本上是資金瓶頸的極限?如果你有 1 萬億美元……

Mark Zuckerberg:我認為現在是時候考慮這個問題了。這取決於指數曲線會走多遠。目前,許多資料中心的規模大約是 50 兆瓦或 100 兆瓦,大型資料中心可能達到 150 兆瓦。如果把一個整個資料中心都用來進行訓練,並建立最大的叢集,我認為很多公司正在這樣做。但是當你開始建造像 300 兆瓦、500 兆瓦或 1 吉瓦這樣規模的資料中心時,還沒有人建造過 1 吉瓦的資料中心。我認為這遲早會發生,但不會在明年。有些事情需要花費數年時間才能建成。換個角度來看,我認為 1 吉瓦的規模相當於一個核電廠的能源供應僅用於訓練模型。

Dwarkesh Patel:亞馬遜有沒有做過這個?他們有一個 950 兆瓦的……

Mark Zuckerberg:我不太確定他們做了什麼。你得問他們。

Dwarkesh Patel:但是這種規模的資料中心不一定要建在同一個地方,對吧?如果分散式訓練有效,也可以分散式進行。

Mark Zuckerberg:嗯,我覺得這是一個很大的問題,資料中心將如何運作。

Dwarkesh Patel:Llama-3,甚至可能是 Llama-4 之後的版本,能否遇到這種情況,也就是說,你釋出了這個模型,如果有人有大量計算資源,他們就可以在你釋出的模型的基礎上,讓這些模型變得更加智慧。

Mark Zuckerberg:我認為這種可能性是存在的,但我也認為模型架構存在根本性的限制。用 Llama-3 架構訓練的 70B 模型可以變得更好,它可以持續改進。正如我之前說的,如果我們繼續給它提供更多的資料,或者再次透過 token 進行最佳化,它會變得更好,世界各地的許多不同公司基本上都採用了 Llama-2 70B 模型架構,然後構建了一個新模型。但仍然存在這樣一個情況,當你對像 Llama-3 70B 或 Llama-3 405B 這樣的模型進行改進時,人們在此基礎上可以構建的東西不能無限地進步。在達到下一個重要進展之前,可能只能在現有的基礎上進行最佳化和改進。

AI 是有史以來最重要的技術嗎?

Dwarkesh Patel:未來幾十年人工智慧會發生什麼?它是否會讓你感覺像是另一種技術,如虛擬宇宙或社交技術,或者是人類歷史程序中根本不同的事物?

Mark Zuckerberg:我認為將人工智慧形容為非常基礎性的技術是非常合適的。它更像計算機的發明,將催生全新的應用。但我認為這是一個低層次的創新,我的感覺是,這更像是人們從沒有計算機到擁有計算機的過程。

然而,我們很難預測 AI 如何發展。從宇宙尺度來講,AI 變革會很快發生,需要幾十年的時間。有些人會很擔心 AI 真的會在一夜之間從有點聰明變成極其聰明,但我認為所有這些物理限制使得這種情況不太可能發生。不過我們必須承認,AI 確實會改變我們的工作方式,讓人們做他們更想做的事情。

Dwarkesh Patel:也許不是一夜之間,但你認為在宇宙尺度上我們可以用這種方式來思考這些里程碑嗎:人類進化了,然後人工智慧出現了,然後他們進入了銀河系,按照這個推理,這個過程也許需要幾十年,也許需要一個世紀,AI 會是歷史發展的重要一環嗎?我指的是比如計算機甚至火在人類發展史上至關重要,但人工智慧可以和這些發明相提並論嗎?

Mark Zuckerberg:我認為這很難回答。人類歷史上,人類的某些方面確實是獨一無二的,然後認識到事實並非如此,但人類實際上仍然非常特殊。我們認為地球是宇宙的中心,但事實並非如此,但人類仍然非常偉大和獨特,對吧?

我認為人們往往存在的另一個偏見是認為智慧在某種程度上與生活有著根本的聯絡,但並非如此。我們還沒有對意識或生命有清晰的定義來全面理解這個問題。很多科幻小說都是關於創造智慧的,這些智慧體開始承擔所有這些類人行為和類似的事情。但目前的趨勢似乎正朝著一個方向發展,即智慧可以與意識、能動性和類似的東西完全分開,這使得它成為一個超級有價值的工具。

雖然很難準確預測技術的發展方向,但開發者並不應該對開發計劃或未來做出過於教條的承諾。在我們釋出新版本時,都需要對模型進行重新評估。我們雖然傾向於支援開源,但並不一定會開源所有內容。開源有利於社群和自身,因為大家可以從創新中受益。然而,如果技術的性質發生質變,演變為不負責任的行為,那我們可能會考慮不開源。整體來說,技術發展充滿不確定性。

開源 vs. 閉源,哪個更危險?

Dwarkesh Patel:未來你們在訓練 Llama-5 或 Llama-4 時,有沒有可能出現質變情況?如果出現了,你們要不要把它開源?

Mark Zuckerberg:回答這個問題有點困難,因為任何產品都可能出現負面行為,只要加以緩解就可以了。我們也在為減少模型負面影響而努力,此前也在 Llama-2 上花費了大量時間確保它不會幫助人們實施暴力等不良行為。但這並不意味著它已經成為智慧主體,這只是意味著它擁有大量有關世界的知識,可以回答我們認為不應該回答的一系列問題。因此,我認為問題在於如何識別並緩解其潛在不良行為,而非行為本身。

我認為事物的好壞有很多方面,很難事先詳盡列舉出來。看看我們在社交媒體上所面對的問題,目前我們已經總結出了 18 或 19 種人類有害行為,然後構建了 AI 系統來識別這些行為,並儘可能確保在我們的網路上不會發生這些情況。隨著時間的推移,我認為我們會更加細化問題分類。

Dwarkesh Patel:我認為廣泛部署 AI 系統是非常重要的。如果將來 AI 系統沒有被廣泛部署,導致人們無法訪問,我會感到失望。與此同時,我想更好地理解如何減輕模型潛在問題。

Mark Zuckerberg:這是一個複雜的問題。我認為大部分人會使用現成的模型,因而不會出現不良行為,而懷有惡意行為的人則會試圖利用模型不良行為。所以這是個值得深思的問題。另一方面,從哲學上講,我支援開源的一個原因是,我認為未來 AI 的過度集中化會像它被不恰當的廣泛應用一樣危險。一個機構擁有比其他所有機構更強大的 AI 也可能是非常糟糕的。就像我們看到的,不同事物中都存在著安全漏洞。

我們是如何處理這個問題的呢?其中一個重要部分是開源軟體,軟體的升級迭代不再侷限於一家公司,而且可以廣泛部署到許多不同的系統中,無論是銀行還是醫院。隨著軟體變得更加完善,全世界範圍的開源軟體會按照新的基準得到升級。

隨著時間的推移,在被人工智慧廣泛部署的世界,會逐漸變得更加堅固,所有不同系統都將在某種程度上得到控制。對我來說,這比 AI 更集中化更安全。然而,最讓我擔心的是,一個不可信賴的主體擁有超級強大的人工智慧系統,這可能是一個更大的風險。

Dwarkesh Patel:是否會出現這種情況,當你正在訓練 Llama-4 時,它可能出於一些原因對你撒謊了,因為它認為你沒有注意到這個問題,之後你才後知後覺道發生了什麼?儘管這種情況在 Llama-4 這種級別的系統中不太可能發生,但你有沒有想過,假如這種欺騙行為正在以成千上萬的副本在不安全的傳播。

Mark Zuckerberg:現在,我們已經觀察到許多幻覺現象,人們如何區分幻覺和欺騙會是一件有趣的事情。談到欺騙,我最擔心的形式是人們利用它來生成錯誤資訊,然後透過網路或其他人傳播該資訊。我們打擊此類有害內容的方法是構建比對手系統更智慧的人工智慧系統。

如果你仔細觀察人們透過社交網路造成傷害的型別,就會發現有些傷害並非具有對抗性的。舉例來說,仇恨言論沒有超級對抗性,因為人們並沒有因為網路言論而變得更加種族歧視。我認為在這些問題上,人工智慧通常比人類更成熟。其實我們雙方都有問題,人會做壞事,無論他們是試圖煽動暴力還是其他什麼。但 AI 也會出現很多誤報情況,比如審查了不該審查的東西,這會讓很多人感到惱火,這是可以理解的。所以我認為隨著時間的推移,人工智慧在這方面會變得越來越準確,情況將會得到改善。

未來,無論是 Llama-4 還是 Llama-6,我們都需要認真觀察模型行為,是每一個人都參與進來。我們開源的原因之一是有很多其他人也在研究這個領域。因此,我們想要看看其他人觀察到了什麼,我們自己觀察到了什麼,我們能夠減輕什麼,然後我們會評估是否可以將其開源。在可預見的將來,我對此持樂觀態度。但在短期內,我不想忽視我們今天正在努力解決的實際問題。即使它們不是生存性的問題,卻是我們必須花費時間解決的大部分問題。

Dwarkesh Patel:關於合成資料,我發現一個非常有意思的事情。目前的模型使用合成資料可能會出現漸近情況,因為重複使用合成資料會達到一個極限。但是,如果模型變得更智慧,並且使用了你們在論文或即將釋出的部落格文章中提到的技術,即能夠找到最正確答案的思維鏈條。為什麼你認為這不會導致一個迴圈,模型變得更聰明,產生更好的輸出。當然,這不會是一夜之間的事,但隨著訓練時間的延長,可能會出現一個更智慧的模型。

Mark Zuckerberg:我認為無論模型架構是什麼,它都可以在引數範圍內實現。只是,對於今天的 8B 引數模型,我認為不會像最先進的數千億引數模型一樣好。

Dwarkesh Patel:但這些都是開源的,對吧?

Mark Zuckerberg:嗯,目前看來是的。但前提是我們必須解決上述討論的那些問題。我認為,你可以用軟體做很多事情,但在某種程度上你會受到晶片限制,繼而受到物理方面的限制,此外還受到能源的限制。

Dwarkesh Patel:我認為保留選擇餘地是有意義的,因為有太多我們不知道的事情。很多事情看起來都是有可能的,考慮到所有這些因素,所以你保留選擇餘地似乎是合理的。

Mark Zuckerberg:是的。

為何篤信元宇宙?

Dwarkesh Patel:讓我們來談談元宇宙。你最想進入人類歷史的哪個時期?

Mark Zuckerberg:我對美國曆史和古典歷史非常感興趣。我對科學史也很感興趣。實際上,我認為看到並嘗試更多地瞭解一些重大進步是如何產生的將非常有趣。我們所掌握的關於其中一些內容的著作非常有限。我不確定元宇宙是否能讓你做到這一點,因為對於我們沒有記錄的東西,我們很難回溯。實際上,我不確定回到過去是不是一件重要的事情。我認為這對歷史課之類的東西來說很酷,但這可能不是我對元宇宙最感興趣的用例。

我認為最重要的是,無論你身在何處,(元宇宙)都能讓你感受到與人在一起。我認為這將是一個殺手鐧。在我們進行的人工智慧對話中,有很多內容都是關於物理約束的,而物理約束是這一切的基礎。我認為技術的一個教訓是,你要儘可能地將物理約束領域的東西轉移到軟體中,因為軟體更容易構建和迭代。你可以讓它更加大眾化,因為不是每個人都有資料中心,但很多人都可以編寫程式碼,並使用、修改開放的原始碼。元宇宙版本的軟體是實現現實的數字存在。這將是一個絕對巨大的差異,這樣人們就不會覺得有那麼多的事情必須要大家聚集到一個物理空間去做。我認為,現在還有些事情是大家聚到一起做比較好。這些事情並不是二元對立的。它不會像「好吧,現在你不需要再那樣做了」。但總的來說,我認為它在社交、與人溝通、工作、部分行業、醫療以及很多方面都會非常強大。

Dwarkesh Patel:對於元宇宙,你知道你要去做這件事,即使市場對你大加指責。我很好奇,這種篤定的來源是什麼?你說「哦,價值觀,我有這種直覺」,但每個人都這麼說。如果讓你說一些你特有的東西,你會怎麼表達?你為什麼如此相信元宇宙?

Mark Zuckerberg:我認為這是幾個不同的問題。我的動力是什麼?我們已經討論過很多主題。我只是非常喜歡建造東西。我特別喜歡圍繞人們如何交流、表達自己以及如何工作來構建事物。上大學時,我學的是電腦科學和心理學。對我來說,這一直是這兩件事的交叉點。

這也是一種非常深刻的內在驅動力。我不知道該如何解釋,但我就是覺得,如果我不構建一些新的東西,我就做錯了什麼。即使在我們為人工智慧投資 1000 億美元或為元宇宙投資鉅額資金準備商業案例時,我們也制定了計劃,我認為這些計劃非常清楚地表明,如果我們的東西奏效,這將是一筆很好的投資。但你不能從一開始就確定。人們會與顧問或不同的人爭論不休。比如「你怎麼有足夠的信心做這個?」當我不再嘗試創造新事物的時候,我就完了。我要去別的地方創造新事物。從根本上說,我無法在經營某件事或者我的生活時,不去嘗試創造我認為有趣的新事物。對我來說,這甚至都不是一個問題,我就是沒有辦法不做。

我在生活的各個方面都是這樣。我們家在考愛島建了一個牧場,我負責設計所有建築。我們開始養牛,我就想「好吧,我想養出世界上最好的牛。」「那我們該怎麼設計呢?」這就是我。

把花 100 億美元研發的模型開源,怎麼賺錢?

Dwarkesh Patel :讓我們回到投資者和開源話題上。100 億美元的模型,假設它是完全安全的。你們已經做了這些評估,與此不同的是,評估者還可以對模型進行微調,希望未來的模型也能如此。你們會開源 100 億美元的模型嗎?

Mark Zuckerberg:只要它對我們有幫助,就會開源。

Dwarkesh Patel :花了 100 億美元的研發費用,真的會開源?

Mark Zuckerberg:隨著時間的推移,我們也將對這個問題進行評估。我們在開源軟體方面有著悠久的歷史。我們並不傾向於開源我們的產品。我們不會將 Instagram 的程式碼開源。我們會將許多底層基礎設施開源。在我們的歷史上,最大的一個專案可能就是我們的開放計算專案(Open Compute Project),我們將所有伺服器、網路交換機和資料中心的設計都開源了,結果對我們幫助很大。雖然很多人都能設計伺服器,但現在整個行業都以我們的設計為標準,這意味著供應鏈基本上都是圍繞我們的設計建立起來的。因此,在起量之後,價格對每個人來說都變得更便宜了,而且為我們節省了數十億美元,這真是太棒了。

因此,開源可以在很多方面為我們提供幫助。一個是人們是否能找到更便宜執行模型的方法。隨著時間的推移,我們將在所有這些東西上花費幾千億美元或更多。所以如果我們能提高 10% 的效率,我們就能節省數十億甚至數百億美元。它本身可能就值很多錢了。特別是如果有其他競爭模式存在,我們的東西並沒有放棄某種瘋狂的優勢。

Dwarkesh Patel:那麼,你認為訓練會商品化嗎?

Mark Zuckerberg:我認為有很多方法可以解決這個問題,這是其中之一。因此,「商品」意味著它將變得非常便宜,因為有很多選擇。另一個可能的方向是質量改進。你提到了微調。目前,微調技術在其他主要模型上的應用非常有限。有一些選擇,但一般不適合最大的那些模型。我們可以做的是,針對不同的應用程式或特定的使用案例去微調,或將它們構建到特定的工具鏈中。我認為這不僅能提高開發效率,還能帶來質的區別。

這裡有一個類似的例子。我認為移動生態系統最糟糕的一點是,蘋果和谷歌這兩家守門人(gatekeeper)會告訴你你可以開發什麼。從經濟角度來看,我們構建了一些東西,他們就拿走你的一大筆錢。但還有一個定性的事情,實際上更讓我不爽。有很多次,當我們推出或想要推出新功能時,蘋果就會說「不行,你不能推出這個功能」。這很糟糕,對吧?那麼問題來了,我們是否也想要一個這樣的 AI 世界?這個世界裡只有幾家執行這些封閉模型的公司,它們將控制 API,然後告訴你,你可以構建什麼。

至於我們,我可以說,為了確保不陷入這種境地,我們自己去構建一個模型是值得的。我不希望任何其他公司來告訴我們,我們可以構建什麼。從開源的角度來看,我認為很多開發者也不希望那些公司這麼做。那麼問題來了,圍繞這個問題建立起來的生態系統是什麼樣的?有哪些有趣的新事物?這能在多大程度上改善我們的產品?我認為,在很多情況下,如果最終像我們的資料庫、快取系統或架構一樣,我們將從社群獲得有價值的貢獻,從而使我們的產品變得更好。屆時,我們所做的特定於應用的工作仍將非常與眾不同,以至於並不重要。我們將能做我們該做的事。我們將從中受益。而所有的系統,無論是我們的還是社群的,都將因為開源而變得更好。

有一個世界也許並非如此。也許模型最終更像是產品本身。我認為這是一個更棘手的經濟計算,無論你是否開放原始碼。你把自己商品化了很多。但就我目前所見,我們似乎還沒到那個地步。

Dwarkesh Patel:您是否希望透過將您的模型授權給雲提供商來賺取可觀的收入?這樣一來,他們必須向您支付費用才能部署這個模型。

Mark Zuckerberg:我們希望有這樣的安排,但我不知道會有多大意義。這基本上就是我們的 Llama 許可證的範圍。在很多方面,它都是一個非常開放的開源許可證,只是我們對使用它的大公司有一個限制。這就是我們設定限制的原因。我們並不是要阻止他們使用。我們只是希望,如果他們打算把我們構建的東西轉賣並從中賺錢,那麼他們應該來和我們談談。如果你是微軟 Azure 或亞馬遜,如果你打算轉售我們的模型,那麼我們應該有一些收入分成。所以,在此之前,請先和我們談談。

因此,對於 Llama-2,我們基本上與所有這些主要的雲端計算公司都達成了協議,Llama-2 可以作為託管服務在所有這些雲上使用。我認為,隨著我們釋出的模型越來越大,這將成為一件大事。這不是我們的重點所在,但我認為,如果這些公司要銷售我們的模型,我們就應該以某種方式分享其中的好處。

Dwarkesh Patel:就開源而言,我很好奇你是否認為 PyTorch、React、Open Compute 等開源對世界的影響甚至超過了 Meta 的社交媒體方面。我和使用這些服務的人聊過,他們認為這是合理的,因為網際網路的很大一部分都是基於這些東西執行的。

Mark Zuckerberg:這是一個有趣的問題。全世界幾乎有一半的人都在使用我們的消費產品,所以這一點很難被超越。但我認為,開源作為一種新的構建方式,確實非常強大。我的意思是,超越是可能的。就像貝爾實驗室一樣,他們為了實現長途電話而研究電晶體。他們做到了,並且最終因為能夠實現長途電話而獲得了豐厚的利潤。5 到 10 年後,如果你問他們發明的最有用的東西是什麼 他們會說「我們實現了長途電話,現在所有的人都在打長途電話」。但如果你問一個一百年後的人,也許答案就不一樣了。

我認為我們正在構建的很多東西都是如此,包括現實實驗室(Reality Labs)、一些人工智慧的東西、一些開源的東西。具體的產品會不斷演變,但人類的進步會持續下去,這是我們能做的一件很酷的事情。

Dwarkesh Patel:Llama 模型何時會在你們自己的定製晶片上進行訓練?

Mark Zuckerberg:很快,但 Llama-4 不會。我們採取的方法是,首先構建定製晶片,處理排名和推薦型別的推理,如 Reels、News Feed 廣告等。這需要消耗大量 GPU。當我們能夠將其轉移到我們自己的晶片上時,我們就可以只在訓練時使用更昂貴的英偉達 GPU。我們希望在未來的某一天,我們能用自己的晶片先訓練一些簡單的東西,然後再去訓練真正的大模型。這個專案進展得相當順利,我們只是在有條不紊地推進,我們有一個長期的路線圖。

如果你被任命為 Google + 的 CEO,你能成功嗎?

Dwarkesh Patel:如果你被任命為 Google + 的 CEO,你能成功嗎?

Mark Zuckerberg:我不知道。這是一個非常困難的反事實問題。

Dwarkesh Patel:當 Gemini 推出時,辦公室裡是否有人說:「Carthago delenda est(迦太基必須毀滅)」(注:比喻性地表達對競爭對手的強烈敵意或決心要戰勝對手)?

Mark Zuckerberg:沒有,我覺得我們現在更平和了。問題是,Google+ 並沒有 CEO。它只是公司內部的一個部門。你之前問過什麼是最稀缺的商品,但你問的是以美元計價的。實際上,我認為對於大多數公司來說,至少對於這種規模的公司來說,最稀缺的是專注力。當你是一家初創公司時,也許你的資金會更緊張。你只有一個想法,可能沒有所有的資源。你在某一點上越過了你所做的事情的界限。你正在構建多個東西。你在它們之間創造了更多的價值,但你卻受到了更多的限制。

總會有這樣的情況,即組織裡發生了一些令人驚奇的事情,而我卻渾然不知。那些事情都很棒。但我認為,總的來說,組織的能力主要受限於 CEO 和管理團隊的監督和管理能力。這一直是我們關注的重點。正如 Ben Horowitz(矽谷著名風投公司 Andreessen Horowitz 聯合創始人之一)所說,「keep the main thing, the main thing」,並努力專注於你的關鍵優先事項。

參考連結:https://www.dwarkeshpatel.com/p/mark-zuckerberg

相關文章