讓魯迅說繞口令、赫本玩嘻哈,又一影片模型火了,史丹佛華人博士創立

机器之心發表於2024-06-16
團隊成員均來自史丹佛大學,CTO還是泰勒·斯威夫特的鐵桿粉絲。

AI影片領域卷瘋了。

Luma引發的狂歡還沒結束,AI影片圈又來了個挑戰者——

史丹佛大學團隊出品的Proteus。

圖片

據介紹,Proteus 是一款低延遲基礎模型,可以生成高度真實且富有表現力的人物形象。

例如,讓世界名畫中的主角——蒙娜麗莎或者帶珍珠耳環的女孩——肆無忌憚地大笑,面部表情自然流暢:讓魯迅說繞口令、赫本玩嘻哈,又一影片模型火了,史丹佛華人博士創立讓奧黛麗·赫本一改往日淑女形象,玩起嘻哈說唱: 讓魯迅說繞口令、赫本玩嘻哈,又一影片模型火了,史丹佛華人博士創立
還讓《哈利·波特》中的斯內普教授唱《Despacito》:
讓魯迅說繞口令、赫本玩嘻哈,又一影片模型火了,史丹佛華人博士創立
Proteus剛釋出,一眾大佬發來「賀信」:

AI科學家賈揚清稱讚,實時人工智慧頭像質量出奇得好。
圖片
英偉達科學家Jim Fan則表示,這一專案令人印象深刻。
圖片
早期投資人Brian Zhan發文稱,現有AI影片工具,比如Runway和Pika,最大的問題就是會產生幻覺,尤其是在生成含有人類的影片時。而Apparate Labs透過解決時間連貫性和物件恆定性等問題,使AI影片生成步入下一個階段。
圖片
離譜!魯迅說起了繞口令

Proteus是新一代的基礎模型,用於人類的實時表情生成。

要知道,目前即便是最先進和最強大的生成模型,也無法完全實現人類表情的實時生成。

現有的模型執行速度緩慢,無法提供對生成人物的複雜面部表情和身體動作的直觀控制,而且它們在逼真度和表現力方面仍有所欠缺。

而Proteus採用了最先進的transformer 架構的潛在擴散模型,其創新性的潛在空間設計確保了實時的高效率,並且隨著架構和演算法的持續最佳化,Proteus能夠實現每秒100幀以上(100+ FPS)的影片流。

換句話說,只需一張簡單的照片,Proteus不僅能夠模仿人類的笑聲、說唱、歌唱、眨眼、微笑和對話,還能執行更多生動的表情和動作。

比如說,一向嚴肅的魯迅說起了繞口令:
讓魯迅說繞口令、赫本玩嘻哈,又一影片模型火了,史丹佛華人博士創立或者讓居里夫人清唱《Le Festin》: 讓魯迅說繞口令、赫本玩嘻哈,又一影片模型火了,史丹佛華人博士創立抑或是給科學家們開個圓桌會議:
讓魯迅說繞口令、赫本玩嘻哈,又一影片模型火了,史丹佛華人博士創立
據Proteus研發團隊介紹,他們期望Proteus可以成為一個聲音可控的視覺化身,為人工智慧對話實體提供一個直觀的互動介面,同時能夠與眾多多模態大語言模型無縫相容,為各種不同的應用場景提供定製化服務。

對此,不少網友腦洞大開——

「只需要用愛因斯坦的資料對大語言模型進行微調,再配上他生動的面部表情,就能讓偉大的愛因斯坦化身教學助手,來親自教授物理課,青少年再也不用愁學不好科學了。」
圖片
還有網友表示,我愛死它了,今年絕對是AI影片之年。
圖片
起底背後團隊

這款被大佬力捧、小而美的模型, 背後是個怎樣的團隊?

據官網介紹,這是由史丹佛大學的Apparate Labs研發出來的。

目前該團隊僅6人,從名字和照片來看,有3人為華人。
圖片
執行長兼聯合創始人沈博魁(William Shen)博士就讀於史丹佛大學電腦科學系,由知名教授Silvio Savarese和Leonidas J. Guibas共同指導。

圖片

他的研究涵蓋人工智慧多個領域,包括計算機視覺、機器人學、圖形學、生成模型和具身智慧。其論文多次獲獎,例如在IEEE-CVPR獲得了最佳論文獎,還在RSS上入圍了最佳學生論文獎的決賽。

此前,他還以GPA4.0的優異成績獲得史丹佛大學電腦科學學士學位。

技術長兼聯合創始人Connor Lin也是個學霸。

他本碩就讀於卡內基·梅隆大學,師從Keenan Crane教授。2020年前往史丹佛大學攻讀計算機博士。目前他是一名四年級在讀博士生,由Leonidas Guibas和Gordon Wetzstein兩位教授共同指導。
圖片
Connor Lin的研究聚焦於3D先驗知識和神經表示,用於3D重建、生成和編輯,曾獲得David Cheriton史丹佛研究生獎學金的支援。

在攻讀博士期間,他在谷歌研究、英偉達研究和Adobe研究實習。此前,還在谷歌擔任軟體工程師,負責Pixel手機的人像模式開發。

此外,這小哥興趣廣泛,喜歡旅行和體育,喜歡烹飪、羽毛球、游泳、桌遊和音樂,還是泰勒·斯威夫特的鐵桿粉絲

和Connor Lin一樣,首席科學家Linqi (Alex) Zhou也是史丹佛大學的一名博士生,由Stefano Ermon教授指導。
圖片
此前,Linqi Zhou在加州大學洛杉磯分校獲得了電腦科學和應用數學的學士學位,由Song-Chun Zhu教授和Ying-Nian Wu教授指導。

他主要在計算機視覺機器學習領域進行研究,並致力於構建能夠以結構化和機率性方式理解世界的模型。

參考連結:
https://apparate.ai/stream.html

相關文章