Seed校招博士自述:我為什麼選擇來位元組做大模型

机器之心發表於2024-11-12
原文來自知乎博主張逸霄對“大家能分享一下當前博士就業的情況嗎”的回答。

人在英國,剛過答辯。今年拿了騰訊 AI Lab(青雲計劃)、位元組跳動(Seed) ,國外有之前實習的 Sony Research 和 Yamaha 的 return offer,國外也有正在面試的 Adobe 和 Meta。這些工作機會的方向都和我的博士工作完全 match,沒有轉方向的痛苦。

最後,我接了位元組 Seed(豆包大模型)團隊的 offer,結束秋招。

背景介紹

我是一個方向比較獨特的博士,做的是音樂生成。今年年底四年順利畢業,最後的選擇是:接了位元組 Seed 的 offer,在工業界繼續進行研究。

張逸霄主頁:https://ldzhangyx.github.io/

逛知乎的這個方向的同行們應該多少讀過我在知乎寫的鳥瞰 ISMIR 知乎專欄系列。和很多人一樣,我是從其他方向轉來計算機音樂方向的,早年我邊看邊學,留下了一些筆記,現在還掛在知乎裡有人不時點贊。

人工智慧可以作曲嗎?1141 贊同・116 評論 回答

連結:https://www.zhihu.com/question/22213757/answer/1168290626

圖片
如何看待中央音樂學院首招音樂人工智慧方向博士生?更廣泛來說人工智慧在音樂領域的應用與前景?1083 贊同・88 評論 回答

連結:https://www.zhihu.com/question/314142299/answer/612302579

雖然 AIGC 火起來的這兩年,看上去音樂生成已經成為一片紅海,但我入行的時候並不是這個樣子的。甚至我之所以出國讀博,是因為國內只有屈指可數的兩三個老師有計劃培養這個方向的博士(當然現在國內稍微多了一些,央音、上交、港中深等一些學校都開始招收 phd 和工作崗位)。

我在讀博的時候,認真考慮過自己博士畢業之後會不會沒飯吃,會不會被迫轉行。確實是一個紮紮實實的窮方向。大部分人都是在為愛發電,紮紮實實將自己的博士四年投入到音樂方面的各種研究之中。

但是這兩年大模型和 GenAI 的風一吹,音樂生成方向突然又行了。我算是一個比較幸運的學生, 在行業的 bar 不高的時候入行,在市場壯大之際畢業

找工作過程中,其實有很多感慨。

1. 找工作是一個長久的過程。很多時候, 在讀博期間建立的 connection 能很大程度上幫助我拿到面試,找到工作 。在我秋招的過程中,給我面試的公司,無一例外都是之前建立過聯絡的同行。我在找工作的時候,能把簡歷直接遞給 hiring manager 之後,整個流程都很順利。
2. 一個領域的工作機會,很多時候更大的決定因素並不僅僅是個人努力 。我 2019 年的時候還在做音樂結構分析,而 2023 年之前,計算機音樂方向都是不溫不火的方向。現在生成方向搭上了 GenAI 的快車,讓更多同行能拿到高薪,但這和他們的選擇並沒有什麼關係;一個公司有沒有給 offer,很多時候更可能是很多其他因素導致了這個結果。

這個時候,有一句勉勵的話可以恰如其分地用在這裡:

世界上沒有快樂或痛苦;只有一種狀況與另一種狀況的比較,只是如此而已。只有曾身受過最深切的悲哀的人,才最能體會最大的快樂。摩萊爾,我們必須經驗過死的痛苦,才能體會到生的快樂。所以,我心愛的孩子呀,享受生命的快樂吧!永遠不要忘記,在上帝揭露人的未來以前,人類的一切智慧是包含在這四個字裡面的:“等待” 和 “希望”。

確實是這樣的。

煎熬的畢業前半年

畢業的前半年無疑是煎熬的。因為從這個時候開始,全職的 offer 就可以開始陸續談下來了 。

我在英國瑪麗女王大學 (Queen Mary University of London, QMUL) 的數字音樂中心 (Centre for Digital Music, C4DM) 讀的 phd program。實驗室近幾年保持著 70 餘位研究計算機音樂的 phd 學生,從規模上應該是全世界最大的計算機音樂實驗室。

這個 phd program 與一般的英國 phd program 的差別在於:英國傳統上是三年制,而我的 phd program 是四年制,第四年結束之後可以提交學位論文,這個階段最長可以有一年。我們稱這個階段為 “writing-up” 階段。這就使得我接受的 training 像是一個半英半美的結合體。

UKRI Centre for Doctoral Training in Artificial Intelligence and Music www.aim.qmul.ac.uk/
圖片
連結:https://www.aim.qmul.ac.uk/

我本科畢業之後沒有直接讀博,而是 gap 了一年之後申請了 phd。在第一年經歷了上課的過渡期之後,我在博二博三期間的產出其實並不算多,加上實驗經歷並不如同學們那麼充分,於是我經歷了長達一年的可怕階段:做什麼實驗,什麼實驗 fail。我又是一個科研自尊心很強的人,博三結束之後,我焦慮地整夜整夜睡不著覺。

事實上,那是光明之前的最後黑暗,因為構成我畢業論文的主要的三篇論文,都是在我博三結束到博四期間構思完成的論文。

那個時候要撐過來,其實很感謝我的博導 Prof. Simon Dixon。用我們實驗室的話來說,他的風格有點像 big daddy,溫暖呵護每一個博士生。雖然他有點上年齡了,不是總能跟得上科研前沿,但他有三個優點:我想做什麼,他都支援我去做;他總是正確地指出我科研不成熟的地方,從 idea 完善,到實驗設計,到論文寫作。把我擺正之後,他又開始放羊。

畢業前半年,我又開始焦慮。我是一個很容易被影響的人,我時不時會有嚴重的 peer pressure,甚至會時常壓迫到自己半夜失眠。這一部分也是因為,不管我博士期間做得如何,我都要上就業市場, 面對殘酷而不公平的博士競爭了。

作為一個合格的 INTP,我開始做廣泛的調研,然後得到了下面的資訊。

MIR 領域的畢業選擇:高校還是工業界?

儘管我們領域這麼冷門,但博士畢業之後的主流出路仍然是兩個:高校或是業界。

事實上,我在就讀博士期間,對這個選擇一直保持 open 的態度。

學術界的選擇

學術界來說,目前高校仍然是一個比較卷的選擇。可以參考今年大學放出來的名額:
圖片
我沒有去學術界的原因有兩個:

1. 大模型時代,工業界資源更為豐富 。

這一點想必同行們都深有感觸。現在需要訓練一個引數量比較大的模型,學校實驗室的那一點顯示卡根本是不夠用的。如果有機會去公司實習,有足夠的 A100,H800 可以用,那麼很多 idea 才有實現的可能。

我認為未來幾年裡,工業界和學術界的差距可能會進一步增大。這使得在學術界的產出可能會受到經費的影響,難以做出跟進前沿的工作。

2. 大團隊作戰的工業界實質上領先於學術界 。

這一點也可以從這兩年大模型的突破性工作的比例看出來。最具代表性的工作,基本出自 Meta,Google 這些公司的團隊作品,這一點音樂方向也是差不多的。

換而言之,如果要上大模型的戰車,那麼工業界是一個更加實際的選擇。

工業界的選擇

來看一下目前涉及音樂業務的工業界版圖:

大廠:

  • ByteDance(經費充足,研究人員多,產出穩定)
  • Meta(音訊組兼做音樂,研究人員多,不專一,報酬豐厚)
  • Google DeepMind(經費充足,研究人員中多,公司導向不開源)
  • Adobe(經費中等,研究人員少,側重編輯產品落地,學術界活躍)
  • NVIDIA(經費中等,研究人員少,音訊組兼做音樂)
  • Sony Research & Sony CSL(經費較少,研究人員多,氣氛最接近學術界的公司)
  • Spotify (歐洲知名大廠,經費充足,產出穩定,氣氛優秀)
  • Apple (Apple Music 和 Shazam 部門,整體來說是比較四平八穩的產品部門)
  • Dolby(研究做得很不錯,只是 Music 研究比例不高)
  • Bose(音訊組有時做一些音效研究)
  • Microsoft Research Asia(雖然產出多,但是名額少,而且不是核心專案)
  • 騰訊 & 騰訊音樂 TME(經費中多,研究人員多,注重產品轉化)
  • 網易雲音樂(經費中等,最近學術產出急劇下滑)
  • 華為中央媒體研究院(base HK,有一些音樂研究人員,最近成果多起來了)

中小廠:

  • Suno(目前在積極招人)
  • Stability AI(前公司還是很有感情,很有活力的 start-up)
  • Udio(不知道在不在招人)
  • Riffusion(創業公司)
  • Music AI(前 Moises,人數不多,學術研究氣氛還不錯)
  • Deezer(歐洲知名公司,學術上很有名氣)

非 AI 公司:

  • Yamaha(經費中等,AI 研究人員少,非常專注於做很 music 的方向)
  • Steinberg(Yamaha 子公司,AI 研究人員少,注重產業化)
  • iZotope & Native Instrument (近年有一些 AI 技術和論文,但不多)
  • BBC (我們實驗室的合作公司,總體上做得偏音訊)
  • Universal(就是那個環球音樂公司,研究人員少,但是也有學術產出)

更多的我就不列舉了。

當然,值得多說一句的是,這些公司並不是一直在招人。很多情況下,音樂相關的崗位一年可能只有寥寥數個,相對於 GenAI 的大方向來說,確實不是價效比很高的方向。

最後的選擇:位元組跳動 Seed 音樂團隊(SAMI)

借用一句朋友的話,在團隊裡工作是這樣的:

找到了一個自己願意醉心研究的領域,獲得成就感和自我實現的同時,還能獲得非常對得起自己付出的經濟回報。

總體來說我覺得十分貼切。

在讀博期間,我和位元組跳動保持著一定的關係,但並未直接合作過。基於這層原因,我和位元組跳動做 MIR 的同行們,也就是現在的同事們,持有相互的聯絡方式。

位元組跳動內部一直維持著一個做音樂的大團隊,叫做 SAMI(Sound Audio Music Intelligence)。SAMI 團隊在過去的很長一段時間裡,保有美國、英國和中國的團隊協作,也一直是我們領域的學術會議常客。可以用這樣一句話來說, 每一個入行 MIR 的研究者,都會很快認識一個 SAMI 員工,或者前員工

雖然 MIR 領域做的人不多,一篇論文有 50 引用就是比較高的引用了。SAMI 這樣的論文不在少數,並且遍佈 MIR 的各個方向。舉幾個例子,我們領域的人應該多少聽過:

  • 音訊編碼器 PANNs:https://ieeexplore.ieee.org/abstract/document/9229505/
  • 鋼琴音訊轉 MIDI 的重要資料集 GiantMIDI-Piano:https://arxiv.org/abs/2010.07061
  • 最早的 text-to-music 模型之一,MeLoDy:https://proceedings.neurips.cc/paper_files/paper/2023/hash/38b23e2328096520e9c889ae03e372c9-Abstract-Conference.html
  • TTS 基座大模型 Seed-TTS:https://arxiv.org/abs/2406.02430
  • Music 基座大模型 Seed-Music:https://arxiv.org/abs/2409.09214
  • 組裡還不乏一些特定的精緻研究:
  • 音樂結構分析的重要模型:https://ieeexplore.ieee.org/abstract/document/9747252
  • 專用於 MIR 各類任務的當時最好的模型之一:https://ieeexplore.ieee.org/abstract/document/10448314

於是在 2024 年 3 月,在我畢業的前 8 個月,收到 ByteDance 的面試邀請的時候,我並沒有猶豫便答應了。

面試流程

由於保密協議限制,我不能描述更多細節,只能大致說一下時間線。

  • 2024 年 3 月,我收到了現在直屬上級的邀請。
  • 2024 年 4 月,第一輪面試到第三輪面試。
  • 2024 年 5 月,和我的直屬上級的直屬上級約了 slot 進行一對一談話。
  • 2024 年 5 月,我提出了 package 的疑慮,位元組討論後給了一輪漲薪(可以看出位元組給優秀 phd 的待遇還是相當好的)。我當日就簽下了 offer。
  • 2024 年 10 月,我在上海提前入職。

說一下面試期間經歷的事情。

我的面試戰線說長不長,說短不短。因為我在上市場的時候,第一個接到的面試邀請就來自位元組跳動,甚至來自我現在的直屬上級。

我當時同時拿到的 offer 不少,其實選擇上是比較多的,於是我花了大約一個月的時間去約我認識的工業界和學術界的同行,去刷一畝三分地看大家的選擇。

所以我最後為什麼會選擇位元組呢?

1. 第一點是因為確實是方向的 match 程度位於前列。

這兩年,隨著大模型的發展,我逐漸意識到自己一個人單打獨鬥,已經很難在很基礎的領域有很大的突破了。我渴望自己有高水平的合作同事,渴望一個算力充分的實驗室,渴望一個專心致志做音樂研究的地方。

雖然上面提到了那麼多公司,但是我個人認為能在音樂大模型和 MIR 上有長期競爭力的公司,目前看來只有 Google DeepMind 和 ByteDance,原因我在上面做了解釋。而隨著 2023 年 DeepMind 逐漸轉向封閉式科研,不將自己的第一手產出公之於眾,ByteDance 在學術方面反而是一個獨樹一幟的存在。

2. 第二點是位元組,尤其是 Seed 團隊,能夠開出很有競爭力的條件。

  • 首先是錢的問題。在這些選擇裡,位元組給出的包比別的選擇都更多。

因為保密協議,我能說的很有限,但是 @丁霄漢 博士(同時也在位元組)可以幫我作證,位元組給的 package 是一流的,十分符合我對人才計劃薪水的期望。

這裡尤其推薦有水平的 phd 來試試位元組的 TopSeed 人才專案。不僅加入核心團隊,而且薪水給得非常理想。

  • 公司重視程度的問題。

SAMI 目前在關注大模型條件下的音樂和音訊的各種各樣的有趣科研問題。Seed 團隊目前是 ByteDance 的研發主力團隊,我看到的公司資源和投入都在往組裡傾斜。

這包括了我聞所未聞的顯示卡數量 (位元組內部計算平臺 Merlin 有多好用一些同行應該也有所耳聞),遠超我自己之前實驗室的算力資源;從戰略上,豆包大模型目前是公司的發展側重點。目前來看,團隊內部的科研氣氛還是十分濃厚的;在經費和投入的穩定性上,足夠我支撐未來 3-5 年的持續科研研究,而不需要擔心自己被頻繁的業務調動而去分配做自己不願意做的工作。

正如我之前所說,SAMI 在技術的沉澱上是充分的。在入職之後,我看到了海量的內部技術文件,涉及到公開和未公開的各種實驗,說實話讓人十分感慨。在音樂生成和 MIR 這個小眾方向,有了這些實驗資料,說是少走幾年彎路也不為過。

  • 技術轉化的問題。

組裡的技術主要落地在豆包 app 和海綿音樂 app 上面。目前能給出音樂生成從科研學術產出,到產品落地,完成整個閉環的大廠選擇並不多,位元組 > 騰訊音樂 > 網易雲和其他公司。

我覺得這也是工業界獨有的魅力之一,那就是能和組裡的工程同事通力合作,看到技術被實際轉化的那一天。我覺得這也算是不違反我進入音樂科研的初心的。

3. 有什麼糾結的點呢?

糾結的點也有。首先是大家都預設的,位元組的工作強度確實不低。然而,由於我不幸做的是 LLM 和 GenAI,這是一個發展極快的方向,據我所知 Meta 和 Adobe 這些傳統意義上福利給足的美國大廠,在這個方向也要求員工優勝劣汰。我在一畝三分地上看到了很多相關討論,不少人指出 Meta 這個方向也在無休止地 996 工作。這樣對比下來,位元組的工作強度並沒有那麼突出,儘管這是一個頗有黑色幽默的結論。

可能是因為我自認為自己還在職業和學術的上升期,願意在未來三到五年裡繼續秉承著一股衝勁認真科研,將自己保持在學術一線。從這層意義上來說, 工作和人是雙向選擇的過程 。也許之後有一天,我經歷了足夠多,我會選擇離開工業界,去找一份更加輕鬆的科研工作。

原文連結:https://www.zhihu.com/question/559157484/answer/25240942309

相關文章