DICE-Talk – 情感驱动的智能视频生成新突破
DICE-Talk是由复旦大学与腾讯优图实验室联合开发的先进情感化动态肖像生成框架,专注于创建具有生动情感表达且保持身份一致性的动态视频。这一创新工具通过其独特的身份-情感分离处理机制,解决了传统视频生成技术中常见的“表情跳变”问题,实现了情感变化时人物外观的高度一致性。
核心功能
DICE-Talk的主要功能包括情感化动态肖像生成、身份保持、高质量视频生成、泛化能力以及用户控制。用户只需上传一张肖像图片和一段音频,系统即可自动生成带有特定情感的动态视频,同时保持输入图像的身份特征。此外,该工具还支持多模态输入,包括音频、视频和参考图像。
技术原理
DICE-Talk的技术架构包含三个关键组件:
- 解耦情感嵌入模块:通过跨模态注意力机制联合建模音频和视觉情感线索,将情感表示为与身份无关的高斯分布。
- 情感关联增强模块:引入可学习的情感库,通过向量量化和基于注意力的特征聚合,显式捕捉情感之间的关系,提升情感生成的准确性和多样性。
- 情感判别目标:在扩散模型的生成过程中,通过潜在空间分类确保生成视频的情感一致性,同时保持视觉质量和唇部同步。
支持平台
DICE-Talk支持多种操作系统和硬件配置,包括但不限于Windows、Linux等主流系统,并且对硬件要求相对灵活,支持50系显卡。其开源的特性也使得开发者可以在本地进行一键整合包下载和部署。
团队介绍
DICE-Talk由复旦大学与腾讯优图实验室联合研发。复旦大学在人工智能领域拥有深厚的研究基础,而腾讯优图实验室则在计算机视觉和深度学习方面具有丰富的技术积累。双方的合作为DICE-Talk提供了强大的技术支持和创新动力。
项目资源
- 官方网站:https://toto222.github.io/DICE-Talk/
- 源代码托管:https://github.com/toto222/DICE-Talk
- 技术论文:https://arxiv.org/pdf/2504.18087
业务场景
DICE-Talk的应用场景广泛,涵盖影视与媒体制作、教育与培训、虚拟主播等多个领域。在影视制作中,它可以用于动画角色的情感表达和口型同步;在教育领域,能够为虚拟教师添加自然的情感表情,增强教学的感染力。此外,DICE-Talk还可用于社交媒体内容创作,帮助用户生成个性化的动态视频。