李沐重返母校上海交大,從LLM聊到個人生涯,這裡是演講全文

机器之心發表於2024-08-26

昨天,李沐回到了母校上海交大,做了一場關於 LLM 和個人生涯的分享。本文是機器之心梳理的李沐演講內容(根據 B 站使用者@考拉klkl上傳的影片整理,感謝這位同學的錄製,影片連結見文後。)

圖片

圖源:上海交通大學特聘教授俞勇朋友圈。

Hi!大家好,說我是計算機傑出校友有點不敢當。很多年沒有回來,這次回國想見一見本科導師。我的 AI 啟蒙導師李老師說,來都來了,要不做個報告吧。

本來我想講一些關於語言模型的知識,但聽講座的各位不一定都是這個方向,所以我加了一些這些年轉了很多地方、做出的不同選擇的感想。

第一部分我會講得稍微技術一點,是有關整個語言模型的現在,以及未來情況的預測。

語言模型可以分為三塊:算力、資料和演算法。所以語言模型也好,整個機器學習模型也好,本質上就是把資料透過算力和演算法壓進中間那個模型裡面,使得模型有一定的能力,在面對一個新的資料時,它能夠在原資料裡面找到相似的東西,然後做一定的修改,輸出你要的東西。

圖片

打個比方,很多年前深度學習剛出來的時候,我說機器學習像是老中醫,深度學習可能跟玄幻小說的煉丹有點像。所以你看現在的語言模型就很像煉丹,你要把一些材料放進一個丹爐裡面,然後有個丹方去把它煉出來。

那麼資料就是你要找的材料。你看那些小說裡面,主角大部分時間都在找材料,包括去深山裡面找、去拍賣會上買,所以搞資料是很難的事情,是個體力活。但是你必須得有這些資料,而且要多弄一些,因為你不知道到時候會不會毀掉一些。

算力也很重要,就是說火要大一點,裝置要先進一點,因為越好的裝置煉出來的東西越好。

演算法就是你的丹方了。丹方這個東西可能跟小說不一樣。它每年都在進步,而且對於細節的把控非常重要。就算別人告訴過你這個東西怎麼弄,但在真實的場景裡面,你會發現還是挺不一樣的。這就有點像你去徒手發射火箭,發之前你要動手調一調,沒調好的話就炸掉了。

這一次(浪潮裡)的語言模型和上一次深度學習(浪潮裡)的模型有一個比較大的區別 —— 上一次是,我煉一個什麼丹就治一個什麼病,這次我希望這個東西煉出來會有靈魂在裡面,它能解決你很多問題,這其實是技術一代代往前進。

接下來要講的就是,硬體、資料和演算法,未來幾年會發生什麼。這裡面其實是有規律可循的,它不是一個跳躍性的東西。

算力層面:大模型不是特別有價效比的東西

頻寬:讓晶片靠得更近一些

硬體這塊,我放第一位的是頻寬。實際上頻寬是最難也是最重要的。因為就現在的模型訓練而言,很難讓一個機器搞定所有事情,所以要做分散式訓練,通常瓶頸就在頻寬上。

我們現在的頻寬是一根光纖承載 400Gigabits,下一代就是 double,變成 800Gigabits。

圖片

半年前,英偉達釋出了一個名叫 GB200 的系統(現在已經推遲出貨)。不知道大家有沒有見過 GPU 長什麼樣子?這些機器其實是很高的。以前你去資料中心,會看到一個機架櫃可以放很多很多刀鋒伺服器。現在換成新的 GPU 之後,一個機架位只能放兩臺機器。這是因為供電、散熱等等一系列的問題。英偉達可以把 72 塊卡壓縮一個機架位裡面。

這裡面用到了水冷工藝。之前我們其實不太用水冷,因為水冷有很多問題,比如那個閥門沒做好就會漏水,整個機架位一漏水就完了。而且水冷對整個基建是有要求的,水要進來要出去。水的好處是可以帶走很多熱量。現在我們大部分是靠空氣吹,但水的密度更高,所以它帶走熱量的能力更強。

所以一旦用到水冷之後,你的算力就可以更密,就可以放更多機器。晶片就可以壓得比較扁。壓得比較扁的好處就是,每個晶片之間更近了。晶片之間直接用光纖,以光速互通。光速你看上去很快,但實際上在我們眼裡已經很慢了。一臺機器傳輸到隔壁一米之外的機器所帶來的幾納秒延遲,幾乎是不能忍。我們自己去設計機房的時候會考慮光纖的長度,因為一米的差距就會給分散式訓練帶來一個可見的效能影響。

英偉達的 GB200 這個卡就可以把 GPU 都放一起,那麼它們之間的通訊會變得更好一些。你可以理解成:之前我們做多核,把單核封裝到一個晶片裡面,現在是說多核不夠,我要做多卡,多卡以前是分佈在一個房間裡面,現在是多卡也要儘量放在一起,這是一個趨勢。就是一塊晶片那麼大,早就做不上去了,這是臺積電等面臨的工藝難題,現在是儘量把這些東西弄得近一些。

還有一個通訊是 GPU 和 CPU 之間的 PCIe,它每幾年也在翻倍,但是確實會慢一些。

記憶體:制約模型尺寸的一大瓶頸

接下來講記憶體。記憶體比算力也重要一點。因為現在的語言模型,核心是把整個世界的資料壓進模型裡面,那模型就被搞得很大,幾百 GB 的樣子。在執行的時候,它的中間變數也很大,所以它就需要很多的記憶體。現在我們可以做到一個晶片裡面封裝近 192 GB 的記憶體。下一代頻寬會更高一點。

但這個東西目前已經被認為是一個瓶頸了。這是因為記憶體佔面積 —— 一個晶片就那麼大,劃一塊給算力,劃一塊給記憶體之後就放不下什麼東西了。所以很有可能在未來幾年之內,一個晶片就 200GB 記憶體,可能就走不動了。這個要看工藝有沒有突破。這意味著我們的模型大小在一定程度上會被限制在一個尺寸,因為更大的話你的效率會變得特別低。所以記憶體大小會是模型上限的一個制約,而不是算力。我們是記憶體不夠,模型就做不大。

在這一塊,雖然英偉達是領先者,但其實英偉達是不如 AMD 的,甚至不如 Google 的 TPU。

算力:長期來看會越來越便宜

當你搞定了頻寬和記憶體的時候,再去看算力。

機器學習好的一點是,你可以用 4 位浮點數,硬體會變小,它對頻寬的利用率也會變低,因為每次計算它只有那麼多浮點數在裡面。所以我們最近幾代最佳化都來自浮點數的精度的降低。這是它給硬體帶來的好處。

但是當你把模型做得更大的時候,你會發現資源是問題,就是供電。我們自己在做資料中心的時候,曾經真的想過我們自己造一個電廠。當我們發現自己去造一個電廠的成本比我們付的那個電費成本還低的時候,我們花了幾個月時間去看那個電廠檔案。最大的一個晶片要耗一千瓦,一千塊晶片就是一兆瓦,整個校園都未必能用上一兆瓦的電。

關於算力價格。從理論上來說,在公平的市場裡面,每次算力翻倍,價格會保持不變,充分競爭的市場會有這個好處,在過去很多年都是這樣。但是最近幾年英偉達的壟斷導致這個價格下不來。短期來看,算力翻倍,價格可能會有 1.4 倍的提升。但是長期來看,當競爭變得越來越激烈,摩爾定律會發揮作用,就是說算力翻倍,價格不一定變。所以長期來看算力會變得越來越便宜。

算力這塊,你可以用別的晶片,但是這些晶片用來做推理還 OK,做訓練的話還要等幾年的樣子,英偉達還是處在一個壟斷的地位。

圖片

所以在算力這塊,你可以認為摩爾定律還是會發揮作用,就是訓練會兩倍兩倍地變便宜。所以你今天訓練一個模型,一年之後它的價值會減半。很多時候,大家不要去想我現在能搞多大的模型,一年之後,這個模型會貶值。我想說,大模型不是特別有價效比的東西。你要想清楚,從長期來看,你的模型能帶來什麼價值,讓你能夠保值。

模型:從語言到多模態

語言模型:100B 到 500B 引數會是主流

圖片

接下來講模型,比如說語言模型。每次預訓練,無論是 OpenAI 還是別的模型,基本都是用 10T 到 50T token 做預訓練。開源的話基本也在 10T token 以上。這個資料量我覺得差不多了,不會再往一個更大的尺寸去發展。原因是,人類歷史上的資料比這個多是多,但是看多樣性、質量的話,我覺得 10T 到 50T 這個規模就差不多了。你說我還是能弄到很多的資料進來,但這個資料質量不一定能給你帶來一個更好的提升。也許你可以弄到更多的資料,但是清洗之後可能會回到一個這樣子的值。

你的模型大小就是 100B 到 500B 這個樣子。我覺得比較好的一線的模型就是 500B,超過 500B 不是訓練不動,而是做 serving 很難。在谷歌歷史上,他們就沒有讓 500B 以上的模型上過線。OpenAI 沒有對外說,但我覺得 OpenAI 歷史上沒有上線過有效大小超過 500B 的模型。當然 MoE 不算,我是說換算成稠密模型的話。所以,很有可能在未來一陣子,因為受限於記憶體大小和資料的尺寸,我覺得 100B 到 500B 會是未來主流的一個大勢。你可以做更大,但是它很多時候是用 MoE 做的,它的有效大小(每次啟用的大小)可能也就是 500B 的樣子。

語音模型:延遲更低、資訊更豐富

GPT-4o 出來之後,大家對於語音模型產生了濃厚的興趣。以前的模型是我先做 ASR(自動語音識別),把語音訊號轉成文字,然後放進語言模型,讓它出一個文字的回覆,再透過 TTS 變成一個語音的訊號。現在大家做的是直接讓你的原始的語音訊號進去,然後原始的語音訊號再出來。

後者的好處有兩點:一是我們說話的時候,其實裡面包含了很多東西,包括情緒、語調以及你是哪一類的人。大家能夠透過聲音去分辨你的方言,透過你說話的音調能大概知道你是一個什麼樣的人。所以人的語音訊號裡面包含很多東西,還有你的背景音樂、場景音樂,甚至你唱歌的節奏感都有很多資訊在裡面。目前我們那一套傳統的技術是做不了的。這套新的語音技術可以讓語音直接進去,然後利用文字語言模型強大的能力去發掘裡面的資訊。在做輸出的時候也是一樣的,我的輸出可以根據你的輸入的個性化場景來變換語調、情緒。這是一點。

另一點是延遲更短。之前我要先輸出一句話,再進到一個模型去把語音輸出來,這個延遲可能是 1 秒。現在我們大概可以做到 300 毫秒。300 毫秒最大的好處是可以打斷。人與人之間互動,就我跟你在說話的時候,你說一句,我可能會回應一下,或者中間會打斷,所以這個體驗就會做得更好,更像真人一些。

我覺得這是這個技術目前能看到的最好的兩點。

還有一點就是說,它能夠透過語言模型對整個輸出做很多控制。可以讓你用文字定製化一個什麼樣的聲音出來。

音樂模型:不是技術問題,而是商業問題

另外一個國內在商業上做得挺好的東西就是音樂的生成,最近出了挺多做音樂的一些工具。我覺得這一塊的進展從來不是一個技術問題。它的技術其實比語音麻煩一點,因為音樂比人說話更復雜一點。但是實際上它還是一個版權的問題。現在大家開始慢慢解決版權的問題 —— 大公司去買版權,小公司想反正我光腳不怕穿鞋的,我就上。

市面上我覺得已經很好了,就是說抖音快歌,雖然爆款很難,但是如果你不是音樂專業的人,你聽下來覺得沒什麼問題。我之前看一個同事寫首歌,歌詞大意是:我在公司就一個朋友,這個人去吃飯了,一個半小時還沒回來,我覺得他是不是出什麼事了?我是不是要打電話給他女朋友問一下呢?但我又是一個很社恐的人,我又不敢跟人打電話。

就是說,音樂是一種表達,是一個人的互動,任何一個什麼感覺你都可以透過音樂表達。以前你很難用音樂把它很富有情感地表達出來。大家可以寫詩,寫詩可能比音樂容易一點,現在你掌握了這個表達工具之後,我們未來很多人會用音樂這個形式來表達想法和情感。我覺得這個可能是影響力會特別大的,那它不是個技術問題,它可能還是一個商業問題。

影像模型:生成的圖越來越有神韻

接下來是影像。可能大家最近幾天都看過那個做得很真的 TED 演講的圖片。

圖片

目前來看,圖片應該是整個 AIGC 領域做得最早的,也是效果最好的。現在大家可以做到 100 萬以上畫素的圖片的生成。大家說得最多的是圖片要有靈魂。之前你去看那些文生圖的工具,它的風格還是很假,但現在你會看到跟真的很接近,當然它還缺那麼一點點靈魂,不過這一塊說不定很快就有了。

圖片

影片模型:尚屬早期

Sora 出來之後,大家非常關注影片模型。這個實際上還算比較早期,通用的 video 生成還是非常貴,因為 video 資料特別難弄。影片模型的訓練成本很有可能低於資料處理的成本,所以你沒有看到市面上有特別好的開源模型出來。問題在於生成一張圖片容易,但生成一連串連貫的圖片,並保持一致性是很難的。

多模態模型:整合不同模態資訊

目前存在一種趨勢,即多模態。現如今,多模態技術的發展趨勢在於整合不同型別的模態資訊,尤其是文字資訊,因為文字含有豐富的資訊並且易於獲取。透過利用在文字上學到的技能,可以將這些能力泛化到其他模態,如圖片、影片和聲音。

這樣做有兩大好處:一是可以藉助強大的文字模型進行泛化。另一個優點是可以透過文字來定製和控制其他模態的輸出,比如用簡單的文字指令控制圖片、影片和聲音的生成,而不再需要專業的程式設計技能或工具。比如寫程式碼,以前可能需要專業的寫程式碼工具,現在交給 ChatGPT,你透過文字下達要求就行了。逐漸的,你想要生成某個模組的話,也是透過文字去控制的,這應該是未來可能的一個常態,大家用自然語言去做互動。

圖片

總結下來,我覺得語言模型已經達到了較高的水平,大約在 80 到 85 分之間。音訊模型在可接受的水平,處於能用階段,大約在 70-80 分之間。但在影片生成方面,尤其是生成具有特定功能的影片尚顯不足,整體水平大約在 50 分左右。

還有一個推論是我覺得人機互動會有一點改變,比如在點菜時,在 ChatGPT 出來之前我們與手機的互動方式是刷刷刷和點點點,這是最簡單的方式,對人類來說也不耗費精力,能不說就不說。但在 ChatGPT 出來之後,大家打破了這種觀念,他們願意去輸入一段很長的文字去做事情,這是因為設計好的東西不一定滿足我們的所有需求,可能滿足了 80%,但沒有滿足對細節的需求,這時可以透過長文字,即輸入很長的文字來解決。但輸入長文字還是不如說話方便,所以在微信上很多人會說我語音留言會方便點。

現在語音技術正在進步,未來大家可能會越來越能接受對方用一個很長的語音跟你描述一些事情,讓你去完成。雖然早期的語音控制系統通常只用於執行簡單的指令(例如「開窗」),這種簡單的功能並沒有形成強烈的使用者黏性,因為使用者可以透過其他簡單的操作來完成相同的任務。但是,隨著技術的發展,未來的語音控制系統將能夠處理更加複雜和具體的任務,這種技術的自然和便捷性將顯著提高。

所以這是使用者習慣問題。大家可能都在說我們這一次的技術革命還沒有出現 killer APP(殺手級應用)。所謂的 killer APP 就是說一個技術的出現,可能會湧現出一個非常受歡迎的應用形態。

大家知道手機的 killer APP 是什麼嗎?短影片。回想一下五年前,你可能很難想象大家會刷那麼幾秒鐘的影片。

所以這一次的 killer APP 是什麼?

上一波的頂級 AI 公司基本上快死得差不多了,包括 Character.AI、Inflection 被賣了,Adept 也被賣了,還剩一個 Perplexity 搜尋還在支撐著。但是下一代 killer APP 是什麼大家不知道。可能等技術變成熟,大家的不習慣慢慢地過去了,這個東西會湧現出來。

應用:AI 離變革世界還有很多年

圖片

在應用層面,AI 本質上是去輔助人類完成任務,給人類提供無限的人力資源。我將應用分成三類:

第一類就是文科白領。白領是用自然語言去跟人、跟世界打交道,包括寫文章或者其他。我認為在這方面做的比較好的領域包括個人助理、Call centers、文字處理、遊戲和輿論以及教育。一個文科白領可能一小時完成的事情,我們的模型還是能夠完成百分之八九十的。

圖片

第二個是工科白領,目前 AI 想取代程式設計師還早得很。在過去,程式設計往往需要程式設計師自行查詢程式碼示例,例如在網路上搜尋,然後下載一個工作流程的程式碼片段,對其進行變數修改和除錯,以適應特定的任務或專案。

但現在,先進的模型可以自動完成這些步驟。你不用去 copy 程式碼了,因為整個 workflow 已經給爬下來了,訓練的時候已經在裡面了。當你向模型提出請求時,它可以直接在其訓練資料中檢索相關的程式碼片段,根據上下文,再把變數名改一改,模型就做這種事。但它不是真的在寫程式碼,我們人類一個小時還是能夠寫出很多複雜的程式碼的,所以我覺得模型還是沒有取代工科白領一個小時乾的事情,更不用說更復雜的任務了。

最後一個是藍領階級,這反而是最難的,這裡面唯一做的好的是自動駕駛。自動駕駛為什麼這麼出色?是因為路況相對來說是一個封閉的世界,比較穩定,比如有些地方路況十年都不會改變,所以在封閉路況裡面開車相對來說是比較簡單。雖然現在無人駕駛還沒有完全解決,但進步還是很大的。

路上的車多,每個車上都有感測器,從而採集大量的資料,基於大資料做技術開發,比如特斯拉,車上有大量攝像頭,有很多車在路上跑,可以採集很多資料來最佳化演算法,而且路況變化不大。

但是正常的藍領需要做什麼事情?端盤子、運貨等,AI 跟這個世界打交道是一件很難的事情。比如機器人進入一個房間,它要理解這個房間有什麼東西其實很難。除非有技術突破,不然的話需要大量的資料作為輔助。這是一個雞生蛋蛋生雞的問題,如果房間內沒有足夠的感測器,就採集不了足夠的資料,另一方面,一個房間裡不可能有很多機器人進來,同樣也無法得到很多資料,因而泛化能力不是很好。但是在物理世界投放 AI 機器人是一件很難的事情,可能需要很多年。所以 AI 理解藍領的世界,包括和這個世界互動可能需要至少 5 年時間。

圖片

所以簡單總結一下:

對於文科白領的工作,AI 已經能完成簡單任務,複雜任務需要繼續努力。對於工科白領的工作,簡單任務還需要努力,複雜任務存在困難。對於藍領的工作,除了無人駕駛和特定場景(比如工廠,場景變化不大,也能採集大量資料),AI 連簡單任務都做不了,完成複雜任務更難。

但是放眼整個世界,藍領是最主要的成員,因此技術對這個世界做出巨大的變革還需要很多年。未來 10 年、 20 年,大家還是有機會參與進來的。

圖片

對應用來講,只要你能採集到足夠多的資料,就可以被自動化。現在 AI 面臨的困難是需要很多資料。一個行業如果能夠採集很多資料,那麼就能進行自動化。反過來,如果你讓模型完成一項任務,首先考慮的是怎麼樣採集很多資料。很多時候傳統企業會先把資料採集起來,資料積累好了,幾年之後才慢慢開始。所以這是一個發展規律,就這樣子,很多時候急也急不來。

創業一年半,李沐感悟

從這一年半的創業經歷中我們學到了一些東西,一些更細節的東西。

預訓練是工程問題,後訓練才是技術問題

圖片

首先第一點:之前大家會覺得預訓練很重要,比如訓練一個幾百 B 引數的模型,現在在我看起來預訓練是一個工程問題,後訓練才是一個技術問題。但在兩年前預訓練還是一個技術問題,現在我覺得變成工程問題了。對於後訓練,高質量的資料和改進的演算法能夠極大地提升模型效果。高質量的資料一定是結構化的,並且與應用場景高度相關,以保證資料的多樣性和實用性。

在演算法層面,OpenAI 提出了 RLHF,大家給予很高的評價。但當我看到這個演算法時,我覺得這個演算法有點牽強。這套技術在幾年之內發生了非常大的變化。但到底哪個演算法好,我也說不出來。原因在於每個人用的資料不一樣,導致演算法所適用的場景不一樣。以至於你在讀一篇論文的時候,可能在論文中效果很好,但自己實際用時,發現根本用不了,原因在於用的資料不一樣,目標函式對這個結構化問題的假設不一定對應的上,導致演算法不太行。這個問題沒辦法規避,就是一個技術問題,就得去做研發。

如 PPT 上的圖所示,我們拿 llama 3 70B 微調了一個模型,進行角色扮演(如老師、銷售等)。我們直接在 llama 3 base 的基礎上做後訓練,微調了兩個版本 V1、V2,目前 V2 在角色扮演上優於其他模型。

作為創業公司,我們沒有多少資金。LLAMA 團隊標註資料就花了 5, 000 萬美金,然後做訓練,但是你會發現他們的資料並沒有變得多好,而且 Meta 也沒有花太多時間在演算法上面。

做大語言模型的研究,你可以不去做預訓練,你就做後面的一部分,因為後面部分其實對大家有利的。前面變成了一個工程問題,需要很多卡,很多人來完成,後面才是演算法創新。雖然它的門檻還是比較高的,8B 和 70B 的情況也不一樣,8B 上調的很多東西在 70B 上不一定成立。

垂直模型也需要通用知識

圖片

第二個要講的是垂直模型,為什麼要做垂直模型呢?因為通用模型的問題還是一個指數問題,你要實現的任務,通用模型不一定能完成。就拿 OpenAI 來說,讓其模型進行角色扮演,可能迭代好幾代都不行,主要原因在於,它是一個通用維度,需要各個方面都有提升,如果剛好滿足你的要求,需要指數級的資料,並且模型會變得很大。

所以要做垂直模型,這也是大家一年前公認的看法。但是我們花了很多時間發現,這也是一個偽命題。

就是說沒有真正的垂直模型,就算是一個很垂直領域的模型,它的通用能力也是不能差的。比如說你要在某一個學科裡面拿第一,你別的科目也不能差到哪裡去。

評估很難,但很重要

圖片

還有就是做評估特別難,模型在實際場景中的應用是一件非常複雜的事情,假如你用一個比較簡單的評估,是無法評估模型的好壞。所以過去一年多,大家都在不停的重新整理榜單,但實際用起來,就覺得模型不太行,因為評估沒有到位,沒有真的去把實際場景那麼複雜的應用給評估進去。

所以很多時候,評估是你最重要的事情,先把評估做好,再去做別的事情。

我們現在是透過自然語言與模型進行互動,但自然語言有一定的二義性,自然語言很難評價其正確性、邏輯性和風格。通常我們不想讓人來評估,因為比較昂貴,但使用模型評估會帶來偏差。有一個好的評估可以解決 50% 的問題。因為一旦評估解決了,那你就能夠進行最佳化。第二評估解決了,表示你擁有了一些資料。

圖片

資料決定模型上限

還有資料問題。資料決定了模型的上限,演算法決定了模型的下限。就目前來說,我們離 AGI 還很遠, AGI 能夠做自主的學習,我們目前的模型就是填鴨式狀態。

目前看來 Claude 3.5 做的還不錯,一個相對來說不那麼大的模型,能在各種榜單上優於 GPT-4 ,並且在使用上確實還不錯。

在和他們交流後,我覺得他們的資料做得挺好,他們花了很大的力氣來做資料,在資料上用了很多年。所以,想讓模型在某一個方面做得特別好,需要先把相關資料準備好。大家還是用了 70-80% 時間在資料上。

算力

還有算力,就是買 GPU,自建機房不會比租 GPU 便宜太多,原因是大頭被英偉達吃掉了, 英偉達的利潤是 90%。一塊卡是 3, 000 美金的成本,他賣你 3 萬塊錢,你不管誰去買,你跟他關係再好,他也不給你打折,它現在是一個奢侈品。

下圖是三年的費用佔比,你會發現,三年 GPU cost 佔比達到 50%,所以剩下的再拼也意義不大。

圖片

我是從 Amazon 幹了 7 年半才出來創業,但我其實不用 Amazon 服務,太貴了。我們都用小公司買來的,他們當年用來挖比特幣的。

你自己運營的話貴一點點。運營是個體力活, GPU 每天都壞,我們的機房放在多倫多,有三個人三班倒,壞了就跑過去把機器修一下。雲當然還賺了一點錢,但也賺不多,有 20% 的利潤,所以在這一塊看上去是差不多的。

但自建的好處是能節省 CPU 的算力,以及你的儲存和網路頻寬。這些方面,自建就很便宜,但云就會很貴,因為這塊在過去十年沒有太大技術變革。比如說我用 AWS,存一年的資料成本等價於我把存這個東西的硬體買回來,而且能夠容量變 10 倍。當你資料量增長很大的時候,自建是有意義的。

如果你去看語言模型,它就是一個機器學習模型,換了一個架構,只是更大了,帶來很多困難,但它本質上還是可以用傳統的機器學習那一套去理解的。它還是吃資料,評估還是很重要,所以很多之前的經驗還是能用過來的。所以大家不一定要神化新的技術帶來什麼東西。但是它的困難在於,它是之前的 100 倍大,模型變大就會變得很難,這是它目前主要的問題。

在預訓練方面,我覺得現在已經變成一個因為大而導致很多工程問題的困難,這其實還是演算法上探索不夠,得清楚如何改進演算法,以上是我們在技術上的一些分享。

圖片

李沐的打卡式人生

如果大家對 AI 沒那麼感興趣的話,接下來,我講一講從上海交通大學畢業後,我都幹了啥。

圖片

我真的幹了很多亂七八糟的事情,可以說是過著「打卡式人生」,就連論文都是打卡式發論文。

我在上海交通大學待了近七年,又在香港科技大學待了兩年,後來去了 CMU 待了 5 年,在伯克利和史丹佛大學各待了 6 個月。

我也進過大公司,在百度待了兩年,在 Amazon 幹了 7 年,這是我的第二個創業公司。

那麼,這種轉來轉去到底是一種怎樣的體驗?去大公司、讀 PhD 和成立創業公司,目標都何不同?

圖片

從最基本的目標來說,去大公司,是為了升職加薪;讀 PhD ,你要保證自己能畢業;而創業的目標是要能推出產品,要麼上市,要麼賣掉,這是每天都需要思考的。

然後就要考慮,你要幹什麼事情?

在大公司,你要解決問題。大家一定要想清楚:我要在公司幹什麼,公司今年準備幹什麼,最好兩者保持一致。如果幹的事情是自己喜歡的,但不是公司追求的,這就會讓人很難受。

創業公司面臨很多問題,使用者會付錢嗎?投資人會付錢嗎?要是都沒人付錢就糟糕了。

雖然進大公司和創業,都是解決問題,但解決的問題不太一樣。你想解決什麼問題,就會導致你選擇做什麼樣的事情。

還有一個就是驅動力,即最小的動機。

比如說,去大公司,你不要只想著家裡沒礦,找個班上賺點工資。你的動機得高一點,不僅僅是為了賺那點錢。

成立創業公司的動機就要更高一點,不然你熬不下來。

打工人:晚上不用做噩夢,但逐漸成為螺絲釘

圖片

打工人的好處是,可以在一個相對簡單的環境裡學習各種從業知識,比如一個技術如何落地、產品怎麼做出來、怎麼設計、怎麼運營、怎麼管理。

其次是幹完被安排的任務後,晚上睡覺不用太擔心其他,不會做噩夢。

還有就是相對穩定的收入和空餘時間。要知道,買房、教育小孩,照顧父母,都需要耗費時間,而打工人相對來講時間較充裕,就算是 996,還是有一天可以休息,但其他兩個賽道(創業和讀 PhD)沒有 996,它們是 7X24。

那麼打工人的壞處是什麼?壞處就是停留在打工人或者職業經理人的思維。

無論是公司還是學校,它們都創造了一個相對簡單的環節。學校是一個非常簡單的社會,公司也是如此,公司從最上層把整個複雜的世界抽象成簡單的任務,待得越久,就越覺得自己是螺絲釘,當然螺絲釘的好處就是,只要找到一個螺母釘上去就行,不用管這個機器多麼複雜,外面世界多麼複雜,但你在一個簡化的世界裡幹得越久,就會覺得很膩,學的也越少,這就導致你一直停留在一個打工人或者職業經理人的思維裡,而不是站在一個更高更廣的層次去思考。

PhD:要真心熱愛研究,不然難以堅持

圖片

讀 PhD 的好處是,在幾年的時間裡可以專心探索某一個領域,反正也沒錢賺,也沒有升職加薪的機會。

等完成 PhD 後,你可以獲得個人或者小團隊研發的能力,不少人可以自己哐哐哐做出東西來,也有些人可以去帶碩士生、本科生或者幾個人一起完成研發。

大家可能沒注意,PhD 有 50% 時間是花在寫作和演講上的,這種能力也很重要。

還有一個好處,很多公司的研發職位要求就是 PhD。

讀 PhD 的壞處是什麼?

首先,很少有實驗室能參與大專案的研發。

其次是研究課題和導師風格都很挑人,需要你去適應,這個適應過程,要麼看你的適應能力有多好,要麼看你導師的適應能力有多好。你在公司裡面還能夠部門之間跳一跳,但讀 PhD 就更難一些。

最後,要真的熱愛研究,不然堅持不下去,你會覺得研究這個東西到底有什麼意義,寫這篇論文要幹嘛。其實,你可以這樣想:我寫這篇文章就是為了練習寫作,等到更厲害、更大的成果做出來後,寫作不能給我拉後腿。你要有一個更遠大的目標,是真的熱愛它。

創業:有「生死一瞬間」的刺激,也有「三小時醒一次」痛苦

圖片

創業好酷。好處是有當海盜的樂趣。

創業亦是如此。天天看市面上有什麼東西,天天跟人聊有什麼機會,機會來了是不是要 all in 搏一把,海盜太多,你不 all in ,機會就沒了,但 all in 了也可能會失敗,所以生死就在一瞬間,相當刺激,這種樂趣,你在別處無法體驗到,創業是唯一可以合法「當海盜」的方式。

創業還有一個好處,就是能直面這個複雜的社會,直接跟社會打交道,沒有人幫你做抽象,沒有人會幫你把事情想清楚,你得自己把這個社會理解清楚後,快速學習。越複雜的環境,越鍛鍊你的抽象能力,你要對這個世界做抽象,把一些很複雜的現象做簡單。

創業還是一個最好的歷經苦難的方法。創業之後,你會發現,做別的事情都相對簡單。

創業不好的地方就是嬰兒般的睡眠,每三個小時醒一次,懷疑自己是不是快混不下去了。為此,我還問過很多人,包括張一鳴,以及世界首富級別的人,向他們取經。

所有的困難都在你頭上,沒人幫你頂。你在學校導師可以給你頂一頂,你在公司上級可以給你頂一頂,當然你也可能給他背黑鍋,但很多時候上級會幫你背鍋。而創業則是所有困難壓在你一人身上,逃避沒用,你逃避它,就可能解決不了它,最終就邁不過那個坎。因此,你得很熱愛你的創業方向,不一定熱愛創業,但要熱愛創業做的這個事情,不然你堅持不下來。

為什麼我之前說創業要求的動機要比 PhD 更高一點,PhD 的動機要比工作更高一點,核心原因就在於,你會有一個延遲享受。在公司,一個事情幹完就會發獎金或者被表揚;PhD 做一個研究可能要一兩年;創業可能要 5 年, 5 年之後才能得到正反饋。你在沒有任何正反饋的情況下,你就得很熱愛這個事情,得給自己加碼,讓自己嗨起來。

強烈的動機,來自慾望和恐懼

圖片

你要有一個強烈的動機,而強烈的動機要麼來自很深沉、很底層的慾望,要麼來自很深的恐懼。

你用旁觀者的角度來剖析一下自己,你最不願意回憶或者分享的是什麼,再去想一下這背後的動機,是想要什麼還是怕什麼?

慾望是越底層越好,名、利、權,都是底層的慾望,要直面自己的慾望,也要直面自己的恐懼,這種恐懼是可以讓你抑鬱的恐懼,也是讓你感受到生死的恐懼。

你需要把慾望和恐懼轉變成積極向上的動機,這一點很重要,你的動機一定是正確的,符合價值觀的,因為逃避、放縱滿足不了慾望,也緩解不了恐懼,唯一克服它的辦法是,把它變成一個積極向上、符合社會價值的一個動機。

圖片

有了動機之後就得想,我要解決什麼問題,你的問題可能就是你的動機本身。

如果這個問題有學術價值,你可以考慮去讀 PhD;如果這個問題有商業價值,你可以考慮去創業;如果以上兩種屬性都不夠強烈,但至少有成長價值,那先做做打工人也未嘗不可。

舉個例子,語言模型為什麼能 work?沒人知道,這是一個很有學術價值的東西。語言模型能不能孵化出新的應用?這是商業價值上的問題。實在不行的話,也可以思考語言模型在某個產品上如何落地。

一個持續提升自我的妙招

最後,我想分享一個持續提升自我的方法。

圖片

你用導師或者上級的角度去總結自己:你每週幹了哪些事情?為什麼這些目標沒達成?

可能是因為懶,那麼你得直面懶的問題。我怎麼能讓自己勤奮一點?找一個學習夥伴,每天在圖書館待著,要大家相互監督等。

還有可能是因為蠢,這就有兩種解決方案。一種是換一個方向,去擅長的領域;一種是既然繞不開,那就花別人兩倍的時間。

無論是因為懶還是蠢,你都得對自己狠,最後拼的就是你對自己有多狠。

你要形成一個習慣,定個鬧鐘,每週一晚上花 30 分鐘對自己進行總結,每個季度要總結,翻看之前你的寫的週記,看看這個季度的目標是否完成,下個季度要做什麼。

選擇比努力更重要,但選擇的前提是搞清楚你的目標是什麼。

此外,每年或者每五年你都得想一想自己的動機是什麼?如果覺得去年不開心,沒有做出什麼成果,你就要思考一下,是不是你沒有強烈的動機,或者時機不夠成熟。

要是因為時機不到,你就繼續努力,如果是動機不對,那你就考慮換一個努力的方向。

反正我每 5 年都會想一想,我動機是什麼?我接下來要幹什麼?但這有個 bug ,就是我什麼地方都逛了一圈,活成了「打卡式人生」。

圖片

這是一個最好的時代,新的技術帶來了很多新的機會,就算沒有新一代技術出現,現有的技術對世界未來幾年的影響都會非常大。這不是我一個人的看法,很多世界 500 強 CEO 也這麼認為,他們內部的很多資料都驗證了這一觀點。因此,大家不管是讀本科、碩士、還是 PhD,甚至剛工作,都能享受到未來幾年技術帶來的變革。

同時,這也是一個最壞的時代,在座的各位付出的努力要比上一代更多。上一代吃到了時代紅利,而到了你們這一代,時代紅利還是有的,只是需要付出更多努力。

相關閱讀:《李沐:創業一年,人間三年

原影片連結:https://www.bilibili.com/video/BV175WQeZE7Z/?spm_id_from=333.337.search-card.all.click

本文根據影片整理而來,有聽錯或理解不當之處歡迎在評論區指出。

相關文章