MoCha – 重新定义对话角色视频生成的 AI 黑科技
MoCha 是什么
MoCha 是由 Meta 与滑铁卢大学联合开发的端到端对话角色视频生成模型,能根据文本或语音输入生成带有同步语音和自然动作的完整角色动画,首次实现了从语音 / 文本到完整角色表演的端到端生成,打破了传统模型仅能处理面部动画的局限,可生成全身动画,涵盖嘴唇同步、手势以及多角色之间的互动。
核心功能
- 语音驱动角色动画生成 :用户输入语音,MoCha 可生成与语音内容同步的角色嘴型、面部表情、手势及身体动作,让角色表演生动自然,如同真人演出。
- 文本驱动角色动画生成 :用户仅需输入文本脚本,MoCha 会自动合成语音并驱动角色进行完整的口型和动作表现,还可选择不同角色形象和情感风格。
- 全身动画生成 : Unlike traditional models, MoCha can generate natural full - body movements, including lip - syncing, gestures, and interactions between multiple roles, bringing the characters to life with more expressive and engaging motions.
- 多角色轮番对话生成 :MoCha 提供结构化提示模板与角色标签,能自动识别对话轮次,实现角色间自然对话呈现,在多角色场景中,用户定义角色信息后,可通过简单标签在不同场景引用,无需重复描述。
技术原理
- 扩散变压器(DiT)架构 :通过将文本和语音条件依次通过交叉注意力机制融入模型,有效捕捉语义和时间动态,生成逼真且富有表现力的全身动作,同时确保角色动画与输入语音的精确同步。
- 语音 - 视频窗口注意力机制 :限制每个视频标记只能关注与其时间上相邻的音频标记,提高口型同步的准确性和语音 - 视频对齐效果,模拟人类语音运作方式,使角色口型与对话内容精准匹配。
- 联合训练策略 :同时基于语音标注和文本标注的视频数据进行训练,增强了模型在多样化角色动作上的泛化能力,通过自然语言提示实现对角色表情、动作、互动和环境的精细控制。
- 结构化提示模板 :简化多角色对话的文本描述,为每个角色分配唯一标签,在文本中使用这些标签描述角色动作和互动,减少冗余,提高模型在多角色场景中的生成效果。
- 多阶段训练框架 :根据镜头类型对数据进行分类,逐步引入更复杂的任务,确保模型在不同难度任务上的表现,同时提高训练效率。
支持平台
MoCha 主要面向科研机构和企业等专业用户群体,可通过其官网 https://congwei1230.github.io/MoCha/ 进行了解和使用。
团队介绍
MoCha 是由 Meta 与滑铁卢大学联合研发的成果。Meta 作为全球知名的科技公司,在人工智能等领域拥有丰富的资源和强大的研发实力;滑铁卢大学在计算机科学等相关领域也有卓越的研究成果,双方的强强联合为 MoCha 的诞生奠定了坚实基础,使其在技术前沿性和应用潜力方面都具有显著优势。
项目资源
- 官网 :https://congwei1230.github.io/MoCha/
- 源码 :https://github.com/congwei1230/MoCha
- 论文 :https://arxiv.org/pdf/2503.23307
业务场景
- 虚拟主播 :可自动生成日常 Vlog、角色问答等内容,通过语音或文本输入,生成与语音内容同步的角色嘴型、面部表情、手势及身体动作,使虚拟主播更加生动自然。
- 动画影视创作 :支持 AI 自动配音和自动动画生成,能降低动画影视创作的制作成本,生成全身动画,让角色动作更加自然,接近电影级数字人演出。
- 教育内容创作 :可以作为 AI 老师角色进行讲课或互动,通过文本驱动的方式,生成与教学内容匹配的角色动画,提高教育内容的趣味性和吸引力。
- 数字人客服 :可用于拟人化企业客服、咨询角色,通过语音或文本输入,生成自然流畅的客服对话动画,提升用户体验。