Open main menu
IT人
讓魯迅說繞口令、赫本玩嘻哈,又一影片模型火了,史丹佛華人博士創立
机器之心
發表於
2024-06-16
原文網址 :
https://www.jiqizhixin.com/articles/2024-06-16-4
模型
團隊成員均來自史丹佛大學,CTO還是泰勒·斯威夫特的鐵桿粉絲。
AI影片領域卷瘋了。
Luma引發的狂歡還沒結束,AI影片圈又來了個挑戰者——
史丹佛大學團隊出品的Proteus。
據介紹,Proteus 是一款低延遲基礎模型,可以生成高度真實且富有表現力的人物形象。
例如,讓世界名畫中的主角——蒙娜麗莎或者帶珍珠耳環的女孩——肆無忌憚地大笑,面部表情自然流暢:
讓奧黛麗·赫本一改往日淑女形象,玩起嘻哈說唱:
還讓《哈利·波特》中的斯內普教授唱《Despacito》:
Proteus剛釋出,一眾大佬發來「賀信」:
AI科學家賈揚清稱讚,實時
人工智慧
頭像質量出奇得好。
英偉達科學家Jim Fan則表示,這一專案令人印象深刻。
早期投資人Brian Zhan發文稱,現有AI影片工具,比如Runway和Pika,最大的問題就是會產生幻覺,尤其是在生成含有人類的影片時。而Apparate Labs透過解決時間連貫性和物件恆定性等問題,使AI
影片生成
步入下一個階段。
離譜!魯迅說起了繞口令
Proteus是新一代的基礎模型,用於人類的實時表情生成。
要知道,目前即便是最先進和最強大的
生成模型
,也無法完全實現人類表情的實時生成。
現有的模型執行速度緩慢,無法提供對生成人物的複雜面部表情和身體動作的直觀控制,而且它們在逼真度和表現力方面仍有所欠缺。
而Proteus採用了最先進的transformer 架構的潛在擴散模型,其創新性的潛在空間設計確保了實時的高效率,並且隨著架構和演算法的持續最佳化,Proteus能夠實現每秒100幀以上(100+ FPS)的影片流。
換句話說,只需一張簡單的照片,Proteus不僅能夠模仿人類的笑聲、說唱、歌唱、眨眼、微笑和對話,還能執行更多生動的表情和動作。
比如說,一向嚴肅的魯迅說起了繞口令:
或者讓居里夫人清唱《Le Festin》:
抑或是給科學家們開個圓桌會議:
據Proteus研發團隊介紹,他們期望Proteus可以成為一個聲音可控的視覺化身,為
人工智慧
對話實體提供一個直觀的互動介面,同時能夠與眾多多模態大
語言模型
無縫相容,為各種不同的應用場景提供定製化服務。
對此,不少網友腦洞大開——
「只需要用愛因斯坦的資料對大
語言模型
進行微調,再配上他生動的面部表情,就能讓偉大的愛因斯坦化身教學助手,來親自教授物理課,青少年再也不用愁學不好科學了。」
還有網友表示,我愛死它了,今年絕對是AI影片之年。
起底背後團隊
這款被大佬力捧、小而美的模型, 背後是個怎樣的團隊?
據官網介紹,這是由史丹佛大學的Apparate Labs研發出來的。
目前該團隊僅6人,從名字和照片來看,有3人為華人。
執行長兼聯合創始人沈博魁(William Shen)博士就讀於史丹佛大學電腦科學系,由知名教授Silvio Savarese和Leonidas J. Guibas共同指導。
他的研究涵蓋
人工智慧
多個領域,包括
計算機視覺
、機器人學、圖形學、
生成模型
和具身智慧。其論文多次獲獎,例如在IEEE-CVPR獲得了最佳論文獎,還在RSS上入圍了最佳學生論文獎的決賽。
此前,他還以GPA4.0的優異成績獲得史丹佛大學電腦科學學士學位。
技術長兼聯合創始人Connor Lin也是個學霸。
他本碩就讀於卡內基·梅隆大學,師從Keenan Crane教授。2020年前往史丹佛大學攻讀計算機博士。目前他是一名四年級在讀博士生,由Leonidas Guibas和Gordon Wetzstein兩位教授共同指導。
Connor Lin的研究聚焦於3D
先驗知識
和神經表示,用於3D重建、生成和編輯,曾獲得David Cheriton史丹佛研究生獎學金的支援。
在攻讀博士期間,他在谷歌研究、英偉達研究和Adobe研究實習。此前,還在谷歌擔任軟體工程師,負責Pixel手機的人像模式開發。
此外,這小哥興趣廣泛,喜歡旅行和體育,喜歡烹飪、羽毛球、游泳、桌遊和音樂,還是泰勒·斯威夫特的鐵桿粉絲
和Connor Lin一樣,首席科學家Linqi (Alex) Zhou也是史丹佛大學的一名博士生,由Stefano Ermon教授指導。
此前,Linqi Zhou在加州大學洛杉磯分校獲得了電腦科學和應用數學的學士學位,由Song-Chun Zhu教授和Ying-Nian Wu教授指導。
他主要在
計算機視覺
和
機器學習
領域進行研究,並致力於構建能夠以結構化和機率性方式理解世界的模型。
參考連結:
https://apparate.ai/stream.html
相關文章
嘻哈說:開放封閉原則
2019-02-24
GANs有嘻哈:一次學完10個GANs明星模型(附影片)
2018-08-10
模型
嘻哈說:設計模式之建造者模式
2018-10-10
設計模式
嘻哈說:設計模式之單例模式
2018-09-20
設計模式
單例
嘻哈說:設計模式之工廠方法模式
2018-10-23
設計模式
嘻哈說:設計模式之介面隔離原則
2019-02-24
設計模式
嘻哈說:設計模式之里氏替換原則
2019-01-19
設計模式
嘻哈說:設計模式之依賴倒置原則
2018-08-16
設計模式
嘻哈說:設計模式之迪米特法則
2018-08-30
設計模式
Tongue Twister-快速整合華為實時語音識別服務玩轉繞口令
2020-11-28
出身清華姚班,史丹佛博士畢業,她的畢業論文成了「爆款」
2019-02-28
嘻哈說:設計模式之單一職責原則
2018-08-10
設計模式
實測最新AI語音模型:讓川普、丁真說繞口令堪稱以假亂真,但斷句整得稀碎
2024-07-04
AI
模型
清華姚班90後學霸、MIT博士吳佳俊即將加入史丹佛任助理教授
2019-08-25
MIT
影片生成模型變身智慧體:史丹佛Percy Liang等提出VideoAgent,竟能自我最佳化
2024-10-20
模型
智慧體
IDE
GANs有嘻哈:一次學完10個GANs明星模型(附視訊)
2018-08-10
模型
超越GPT-4,史丹佛團隊手機可跑的大模型火了,一夜下載量超2k
2024-04-07
GPT
大模型
史丹佛Surya Ganguli:理解生物智慧與創造人工智慧
2018-12-14
人工智慧
STORM:史丹佛開發創新型寫作系統(翻譯)
2024-04-13
ORM
論文被拒,專案被砍?史丹佛「最慘」在讀博士教你如何直面失敗
2020-04-02
史丹佛DAWNBench:華為雲ModelArts深度學習訓練全球最快
2019-03-04
深度學習
伯爾尼藝術大學:研究發現嘻哈音樂能讓乳酪變得更美味
2019-03-24
39.Redis總結 嘻哈的簡寫筆記——Redis
2020-11-28
Redis
筆記
這就是OpenAI神秘的Q*?史丹佛:語言模型就是Q函式
2024-04-24
OpenAI
模型
函式
深度學習的可解釋性研究(一):讓模型「說人話」
2018-05-30
深度學習
模型
又一「國產版Sora」全球上線!清華朱軍創業團隊,影片生成僅需30秒
2024-07-30
Sora
創業團隊
90後美女學霸傳奇人生:出身清華姚班,成史丹佛AI實驗室負責人高徒
2019-02-28
AI
多篇頂會一作卻申博失敗?史丹佛博士生親述:AI領域太卷
2024-04-16
AI
自媒體-短影片劇本創作
2024-06-01
類人型自主機器人會打太極拳,但功夫很弱-史丹佛HumanPlus機器人
2024-07-01
機器人
00後CEO楊豐瑜:耶魯博士回國創業,五個月造出首款「可量產」人形機器人|AI Pioneer
2024-08-04
創業
機器人
AI
一句話讓Agent自主幹活,清華復旦史丹佛等開源的智慧體開發框架搶先了OpenAI
2025-01-15
智慧體
框架
OpenAI
聽說這個榜單火了?
2024-11-21
Fade In(劇本及小說創作工具)
2020-11-14
從80個模型中構建Scaling Law:華人博士生新作,思維鏈提出者力薦
2024-05-24
模型
從ALOHA邁向Humanplus,史丹佛開源人形機器人,「高配版人類」上線
2024-06-16
機器人
行,這本 Python 書徹底火了!
2020-04-04
Python
華為分析5.3.1版本更新說明
2021-06-01