新一波 AI 技術浪潮來襲的時代,什麼樣的人才最搶手?
最新公佈的一份「獎學金名單」,或許能告訴我們答案。
剛剛,15 位年輕的博士生,喜提 2024 年度位元組跳動獎學金。
據位元組跳動招聘官方賬號披露,這些獲獎人來自清華大學、北京大學、浙江大學、北京郵電大學、新加坡國立大學等國內外知名院校。在今年的名單中,不僅獲獎人的數量比往年更多,入選高校的範圍也擴充套件到了中國大陸、中國香港和新加坡三地。
到今年,位元組跳動獎學金已經是連續第四年頒發,前後入選該計劃的技術人才也增加到了 47 人。這一屆位元組跳動獎學金在 2024 年 8 月發起,最終共有 44 所高校的 424 人報名申請。經過材料初審、複審的嚴格評選流程,47 名頂尖技術同學進入到終審答辯環節,15 位同學最終拿下了每人 10 萬元的獎金。
獲獎資訊詳見位元組跳動校園合作官網:https://ur.bytedance.com/home
大部分獲獎人都在 CVPR、ICCV、NeurIPS 等頂會上發表過多篇論文,年紀輕輕就已經是「高被引研究者」;一部分獲獎人的開源專案在 GitHub 獲得的 Star 量輕鬆過萬,在 Hugging Face 被下載數百萬次;還有一部分獲獎人,潛心投入大模型、具身智慧、物理世界建模等前沿方向,做出了一系列奠基工作,廣受好評。
當我們好奇怎樣才算高階 AI 人才的時候,開啟這份獎學金名單,或許就明白了。
2024 年獲獎名單
陳仁澤
院校:北京大學 研究領域:機器學習系統 導師:梁雲
陳仁澤參與的研究集中於機器學習系統領域,包括深度神經網路(DNN)的轉換和最佳化。他參與的研究工作已發表於 ASPLOS、ISCA、HPCA、NeurIPS、MLSyS、DAC 等國際頂會,陳仁澤作為第一作者(含共一)的論文共有 5 篇。這些成果涵蓋 “運算元間融合”、“計算圖排程”、“低秩化壓縮” 和 “稀疏化壓縮” 等方向,聚焦於機器學習系統的記憶體最佳化,顯著降低了模型在雲端和邊緣端硬體上的記憶體佔用。
方共凡
院校:新加坡國立大學 研究領域:高效深度學習 導師:王鑫超
方共凡的主要研究領域是高效深度學習,包括深度網路壓縮與高效模型設計。他提出了首個通用化的結構化剪枝框架 “DepGraph 技術”,令模型剪枝實現了自動化。他還開發了開源工具 Torch-Pruning,使用者只需幾行程式碼就能完成複雜模型的剪枝任務。此外,他針對大規模生成模型提出的 MaskLLM、Diff-Pruning、LLM-Pruner 等高效壓縮方案,也顯著降低了網路規模和訓練成本。相關研究成果累計被引用超 1500 次、開源專案的 Github 星標超 8000。
馮寅瀟
院校:清華大學 研究領域:計算機系體系結構和高效能互連網路 導師:馬愷聲
馮寅瀟的主要研究領域是計算機體系結構和高效能互連網路,包括芯粒(Chiplet)架構、片上網路、超算網路、資料中心網路、分散式系統和人工智慧基礎設施等。
作為第一作者,他的研究成果發表於 DAC 2022、MICRO 2023、HPCA 2023、ATC 2024、MICRO 2024、SC 2024 等頂會和期刊,解決了芯粒架構從新興技術走向產業落地的一系列關鍵問題和挑戰,推動了後摩爾時代計算機體系結構和下一代高效能互連架構的發展。
傅煒
院校:清華大學 研究領域:強化學習,分散式系統 導師:吳翼
傅煒專注於解決強化學習應用在實際場景時的各種挑戰。過去三年,他共發表六篇頂會(ICRA、ICLR、ICML 和 NeurIPS)論文,其中四篇擔任第一作者或共同第一作者。他共同領導了大規模強化學習系統 “SRL 專案” 的開發,成功復現了 OpenAI 在捉迷藏環境中的解決方案。2024 年,他開發並開源了面向大語言模型的 RLHF 系統 “ReaLHF”,不僅實現了出色的訓練吞吐量,還推動了先進的數學和程式設計智慧體的開發。
劉克非
院校:北京郵電大學 研究領域:RDMA,網路測量與故障定位 導師:張嬌
劉克非的主要研究領域是 RDMA、網路測量與故障定位。在位元組跳動高速網路團隊實習時,他設計研發並在位元組跳動資料中心內推動部署了主機內網路瓶頸定位工具 Hostping 和 RDMA 網路監控與故障定位系統 R-Pingmesh,高效保障了位元組跳動訓練業務的穩定、高效執行。相關成果已發表於 SIGCOMM 2024 (CCF-A) 、 NSDI 2023 (CCF-A)、、 IEEE/ACM Transactions on Networking (CCF-A) 等頂會頂刊。
劉毅
院校:香港城市大學 研究領域:人工智慧物聯網安全與隱私 導師:王聰
劉毅的主要研究方向是人工智慧物聯網的安全、隱私與可信治理,並在相關領域取得了創新性和引領性的優秀成果及落地實踐。他曾入選 2024、2023 年全球前 2% 頂尖科學家,並作為第一作者,發表 4 篇 CCF-A 會議 / 期刊論文和 7 篇 JCR 一區期刊論文(含 6 篇 ESI 高被引論文),授權國家發明專利 3 項,Google Scholar 統計總引用超 3258 次。
宋宇軒
院校:清華大學 研究領域:深度生成模型及其在科學發現中的應用 導師:馬維英、周浩
宋宇軒此前曾在位元組跳動人工智慧實驗室全職擔任研究工程師,他當前的研究集中在深度生成模型和科學人工智慧(AI4Science)領域,特別關注開發有效且可擴充套件的機器學習演算法,以解決分子生成、材料設計和蛋白家族設計等難題。目前,他已在 NeurIPS,ICML,ICLR,AISTATS 等機器學習會議發表多篇論文,其中,GeoBFN 獲評 ICLR2024 Oral。他還曾參與蛋白質摺疊的 CAMEO 競賽,並連續六個月獲得第一名。此外,他還曾獲評清華大學智慧產業研究院院長獎。
孫振俗
院校:新加坡管理大學 研究領域:智慧軟體工程 導師:David Lo
孫振俗的主要研究領域是智慧軟體工程。他提出的 “面向 AI 的程式語言語法” 提升了模型推理效率,該成果發表於 ISSTA 2024 並榮獲 ACM SIGSOFT 傑出論文獎。他還首次提出了基於大模型的程式碼補全存在無效程式碼補全的問題,並相應設計了預防及動態推理機制,相關成果分別發表於 TOSEM 和 ICSE 2024。他針對 “如何防範與利用程式碼大模型訓練資料集中的髒資料” 的研究成果,也發表於 ICSE、WWW、 FSE 和 ISSTA 等頂級會議,並獲得 ICSE 2022 傑出論文提名。
王夢召
院校:浙江大學 研究領域:資料庫、大資料、資訊檢索 導師:高雲君
王夢召主要研究高維向量資料儲存與檢索、面向 RAG 的搜尋系統,致力於打造面向 AI 應用的新型資料基礎設施。他在近鄰圖向量檢索細分領域取得了多項理論或技術突破,並針對億級以上向量資料規模場景提出的磁碟導航圖索引最佳化框架,將查詢延遲降低超 90%,將查詢吞吐量提升 1 個數量級。近幾年,他曾主持省校級專案 3 項,主要參與 10 餘項國家級和省部級科研專案。他還作為第一或通訊作者,在 SIGMOD、VLDB、ICDE、NeurIPS 等頂會和期刊上發表論文 6 篇,授權發明專利 3 件。
汶川
院校:清華大學 研究領域:具身智慧,機器人 導師:高陽
汶川研究方向是具身智慧。博士期間,他提出了 RelatiViT 模型,實現從預訓練視覺模型中提取空間關係資訊;提出了 Any-point Trajectory Modeling (ATM) 方案,實現了小樣本與跨具身模仿學習的能力。同時,他還發現並定義了模仿學習中因為時序資訊造成的虛假關聯性而出現的 copycat problem,並提出系列解決方案。他共發表國際頂會論文 13 篇,其中 7 篇為第一作者。此外,汶川還是 NeurIPS、ICML、ICLR、CVPR、ECCV 等國際會議和 RA-L 等國際期刊的審稿人。
吳海旭
院校:清華大學 研究領域:深度學習、科學機器學習 導師:龍明盛
吳海旭的主要研究方向是深度學習和科學機器學習。他提出的 Corrformer 首次實現了全球數萬臺物聯網裝置的聯合預測。他開源的時序分析演算法庫 Time-Series-Library,獲得了 7000 多個 GitHub 星標,在全網 70000 多個時序相關倉庫中排名前萬分之二。此外,他提出的局域最佳化理論 RoPINN 和 PDE 快速求解網路 Transolver,可以在秒級完成千萬級網格的模擬。當前,他作為第一作者(含共一)在 Nature Machine Intelligence、ICML、NeurIPS、ICLR 等國際頂會頂刊發表論文 10 餘篇,谷歌學術引用 5000 餘次。
吳睿海
院校:北京大學 研究領域:具身操作和三維視覺 導師:董豪
吳睿海的主要研究方向是具身操作和三維視覺。在具身智慧的物體操作這一領域,針對不同類別和屬性的物體,他提出了一系列物體操作的視覺表徵,用以指導完成柔性、鉸接等不同物體的不同操作任務(如疊衣服,開抽屜,物體拼接等),並在此基礎上,透過構建新的模擬環境,以支援更復雜和真實的操作任務。當前,他已在 RSS、NeurIPS、ICLR、CVPR、ICCV、ECCV、ICRA 等頂級會議,發表了近 20 篇論文。
吳勝瓊
院校:新加坡國立大學 研究領域:多模態學習,通用大語言模型 導師:Chua Tat-seng
吳勝瓊的主要研究方向是多模態學習和大模型。目前,她已在多模態學習、自然語言處理以及機器學習等領域頂會上(如 NeurIPS, ICML, ACL, ACM MM)發表了多篇論文,谷歌學術被引次數達 2000 次。吳勝瓊也獲得了多項國際、企業、校級獎勵和榮譽,由她主導的通用多模態大語言模型 “NExT-GPT” 工作獲得了大語言模型社群廣泛的關注和認可,相關開源專案已獲得超 3.4k 星標。
楊麗鶴
院校:香港大學 研究領域:視覺基礎模型、以資料驅動的 AI Research 導師:趙恆爽
楊麗鶴的主要研究方向是視覺基礎模型和資料驅動 AI,相關研究成果的 Github Star 數已超 12000 次,開源模型在 Hugging Face 上累計被下載超 700 萬次,且被收錄進 Transformers 庫和 Apple Core ML Models。作為第一作者,他在計算機視覺和人工智慧頂級會議 CVPR、ICCV、NeurIPS 上共發表了 7 篇論文,包含一篇 oral 論文,谷歌學術引用 1500 餘次,併入選 CVPR 2024 十大最具影響力論文。
張啟
院校:北京大學 研究領域:面向機器的影片編碼以及沉浸式多媒體系統 導師:高文、馬思偉
張啟的研究方向包括面向機器視覺的影片編碼和沉浸式媒體系統。他首次提出了面向機器視覺的恰可識別失真概念,將編碼效能提升 40%。他還首次驗證了機器視覺多樣性的廣泛存在,提出了機器滿意比概念,將編碼效能和通用性提升 30%。此外,張啟搭建了基於視角區塊編碼傳輸的 VR 直播系統,將 12K VR 影片直播所需頻寬節省超 75%、視角切換延遲比國際標準降低 50%。目前,他已發表國際期刊、會議論文 10 篇,包含 TPAMI/IJCV 論文 3 篇。
位元組跳動獎學金
為何能吸引他們報名?
近年來,我們的確能看到位元組跳動在持續加大對頂尖人才和前沿技術的投入力度。
位元組跳動在 2021 年發起了「位元組跳動獎學金計劃 ByteDance Scholarship Program」這個每年一期的人才培養專案,至今已評選出 47 位年輕有為的研究者。
為了發掘這個時代最優秀的一波技術人才,除了 10 萬元人民幣獎學金,位元組跳動還會為這些獲獎人提供內部研學計劃特邀通道,鼓勵優秀人才用技術回饋社會、引領未來。
在多重條件的激勵下,每一位獲獎人都能找到更加廣闊的空間去發揮自身所長,並在這個過程中得到充分的成長。很多獲獎人因此與位元組跳動結緣,最終選擇加入了位元組跳動。
Hunter(化名)就是因入選獎學金計劃而來到位元組跳動,以實習生身份加入了豆包大模型團隊的語音組,並在學校導師和 Mentor 的雙方指導下開啟了將資訊理論引入大模型量化方向的探索。對於他來說,在位元組的研究更靠近實際落地,也能接觸到來自全球不同背景、不同技術方向的人才,研究的視野在不斷開闊。在這種氛圍的激勵下,Hunter 不斷超越自己,也拿到了非常亮眼的成績:在今年 7 月的 ICML 大會中,他以第一作者身份提出了 IR-QLoRA,且入選了 Oral(前 1.5%)。
Eric 也是透過位元組跳動獎學金評選的機會,結識了位元組跳動機器人研究團隊的 Leader,併成為了團隊的一員,致力於用強化學習解決機器人複雜控制問題。在實習期間,他和團隊合作的兩篇機器人相關研究都順利入選了頂會 ICLR 2024,其中的 RoboFlamingo 為機器人領域的研究者提供了一個強大的開源框架,能夠更好地發揮開源 VLM 的潛能。
從研發投入到人才計劃
位元組跳動如何構建「AI 核心」
像 Hunter 和 Eric 這樣因獎學金評選來到位元組跳動,並充分施展了抱負的人才不在少數。特別是在近兩年興起的大模型技術浪潮中,很多原本就做出過重磅成果的人帶著他們的研究經驗來到位元組跳動,將經驗轉化為一項又一項落地應用,將技術轉化為真正的生產力,同時完成了自身的成長。
這些優秀的人才為何選擇位元組跳動?細想一番,不難分析出兩方面因素。
首先,在各方研究者和從業者心中,位元組跳動本身就是最具吸引力的科技公司之一。近年來,位元組跳動在大模型等前沿賽道上一直在「飽和投入」,全面發力。
比如在模型層,2023 年只正式釋出了語言模型的位元組,在 2024 年迅速補全了影像、語音、音樂、影片、3D 等不同模態的生成式 AI 模型。在這一輪生成式 AI 浪潮中起步相對較晚的位元組,已經成為目前擁有最全生成式 AI 模型、最多 AI 應用的技術公司。任何專業、任何志向的人才,都可以在位元組跳動找到「用武之地」。
位元組跳動在大模型基礎研究方面的佈局進展也很迅速。成立僅數月,豆包大模型團隊就有 57 篇論文中選 ICLR、CVPR、NeurIPS 等頂會,研究成果包括下載量超百萬的開源專案及 GitHub 萬星爆款。
在浙商證券 2024 年底釋出的一份報告中,位元組跳動在 AI 上的研發投入顯著領先於國內同行,2024 年資本開支達到 800 億元,接近 BAT 三家的總和(約 1000 億元)。而在已經到來的 2025 年,位元組跳動資本開支有望達到 1600 億元,其中約 900 億元將用於 AI 算力的採購,700 億元用於 IDC 基建以及網路裝置。
雖然位元組跳動官方宣告稱市場傳言的資本開支並不準確,但隨著豆包大模型日均呼叫量從 1200 億 tokens 到 40000 億的飛速提升,沒有人會懷疑位元組跳動在基礎設施投入上的巨大決心。近日還有訊息顯示,位元組跳動釋出了自建資料中心變電站設計框架採購尋源公告。這一動作意味著位元組跳動希望在電力供應上實現更大的自主權和可控性,同時適應業務擴張以及支援高算力需求。
規劃和建設新的資料中心以支撐日益增長的 AI 計算需求,也是全球科技巨頭目前的共同選擇。2024 年 4 月份,微軟與 OpenAI 計劃投資 1000 億美元打造「星際之門」超算,而 Meta、谷歌、亞馬遜等科技巨頭也都在資料中心的部署上雄心勃勃。在這個層面,位元組跳動的競爭力毫不遜色。
有了雄厚的實力作為基礎,技術人才的成長空間自然無限。
其次,飛速發展的 AI 業務,讓位元組跳動對人才的渴求遠超於其他科技公司,也提供著極具競爭力的薪酬與回報。
位元組跳動設定了眾多人才專案,以增加對高階技術人才的吸引力。在面向在讀博士生的獎學金類專案之外,位元組跳動還有 Top Seed、筋斗雲等人才計劃。
比如,Top Seed 就是位元組跳動豆包大模型團隊面向校園優秀人才推出的專項。不同於一般人才專案的各種「硬性篩選條件」,Top Seed 更看重候選人能夠「懷有科技改變世界的遠大抱負,敢於創新」,能夠參與行業頂尖的技術挑戰和攻堅。
與此同時,一批業內大牛陸續加入位元組跳動。據傳,阿里通義大模型技術負責人周暢、零一萬物技術聯創黃文灝、谷歌 VideoPoet 負責人蔣路等已加入豆包大模型團隊,更增添了位元組跳動對技術人才的吸引力。
在與國內知名高校的產學研深度合作上,位元組跳動也有大力投入。2024 年 10 月,清華大學智慧產業研究院(AIR)與位元組跳動在清華大學成立了「可擴充套件大模型智慧技術聯合研究中心」(SIALab),旨在基於大模型技術應用的廣闊前景,推動更高效的創新與實踐。2024 年 12 月,北京大學與位元組跳動正式宣佈成立豆包大模型系統軟體聯合實驗室,實驗室的科研工作將以位元組跳動自研豆包大模型為基礎。來自高校和企業的科研人員都將在實驗室內,圍繞大模型的訓練、推理等關鍵技術展開深入研究。迄今,豆包大模型團隊已與近 20 所高校深入合作,支援超過 40 位頂尖學者參與關鍵 AI 技術攻堅。
一家科技公司要想在競爭激烈的 AI 時代保持地位,歸根結底是要擁有最優秀的一批「人才」。而位元組跳動對 AI 技術研發和人才培養的全力投入,不僅將促進自身相關業務的快速發展,更將推動中國 AI 產業的整體進步。