論文標題:The Language of Motion: Unifying Verbal and Non-verbal Language of 3D Human Motion
論文地址:https://arxiv.org/abs/2412.10523v1
專案頁面:https://languageofmotion.github.io/
語言模型能自然地與其它模態連線起來;
語音富含語義,而「建模因笑話而發出的笑聲」這樣的任務需要強大的語義推理能力;
經過大量預訓練之後,語言模型能夠具備強大的語義理解能力。
首先,進行預訓練,目標是透過身體組合動作對齊與音訊 - 文字對齊來對齊各種不同的模態。
預訓練完成後,將下游任務編譯成指令,並根據這些指令訓練模型,使模型能夠遵循各種任務指令。
空間
時間