AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
從文字生成三維世界的場景有多難?
試想一下,如果我們要 “生成復活節島的摩艾石像”,AI 怎麼才能理解我們的需求,然後生成一個精美的三維場景?
史丹佛的研究團隊提出了一個創新性解決方案:就像人類使用自然語言(natural language)進行交流,三維場景的構建需要場景語言(Scene Language)。
專案主頁:https://ai.stanford.edu/~yzzhang/projects/scene-language/
文章地址:https://arxiv.org/abs/2410.16770
64 個黑白相間的格子 按規則排列的 32 個棋子 每個棋子的獨特造型
使用者偏好測試中獲得 85.65% 的偏好,相比現有方法提高了近 7 倍; 在物體數量控制方面,測試集中的準確率達到 100%,而現有方法只有 11%。