ACTalker – 港科大联合腾讯、清华推出的端到端视频扩散框架

未分类 2025-06-23 0:12

ACTalker 是什么

ACTalker 是由香港科技大学联合腾讯和清华大学研发的端到端视频扩散框架，专门用于生成逼真的说话人头部视频。该框架创新性地采用并行 Mamba 结构，通过多分支处理不同驱动信号，实现了对面部区域的精准控制。在 CelebV-HQ 数据集上，ACTalker 的 Sync-C 和 Sync-D 分数分别达到 5.317 和 7.869，FVD-Inc 分数为 232.374，展现出了卓越的音频同步能力和视频质量，是当前说话人视频生成领域的标杆性解决方案。

核心功能

多信号控制与单信号控制 ：支持单信号或多信号控制，能用音频、表情等多种信号来驱动说话人头部视频的生成。用户可以根据不同的需求和场景，灵活选择控制信号的类型和数量。
自然协调的视频生成 ：通过并行 Mamba 结构，使驱动信号能在每个分支中跨时间和空间两个维度操控特征标记，确保受控视频在时间和空间上的自然协调，生成的视频更加真实流畅。
高质量的视频生成 ：实验结果表明，ACTalker 能生成自然、逼真的面部视频，在多信号控制下，Mamba 层能无缝整合多种驱动模态，无冲突地生成高质量的说话人头部视频。

技术原理

并行 Mamba 结构 ：包含多个分支，每个分支利用单独的驱动信号（如音频、表情等）来控制特定的面部区域，使不同模态的信号可以同时作用于视频生成过程，互不干扰，实现多信号控制。
门控机制 ：在所有分支中应用了门控机制，在训练时随机开启或关闭，在推理时可以根据需要手动调整，为视频生成提供了灵活的控制方式，支持在不同情况下选择使用单一信号或多种信号进行驱动。
掩码丢弃策略（Mask-Drop） ：引入掩码丢弃策略，支持每个驱动信号独立控制其对应的面部区域。在训练过程中，通过随机丢弃与控制区域无关的特征标记，增强驱动信号的有效性，提高生成内容的质量，防止控制冲突。
状态空间建模（SSM） ：为了确保受控视频在时间和空间上的自然协调，采用了状态空间建模（SSM），模型支持驱动信号在每个分支中跨时间和空间两个维度操控特征标记，实现自然的面部动作协调。
视频扩散模型基础 ：基于视频扩散模型进行构建，在去噪过程中引入多分支控制模块，每个 Mamba 分支处理特定模态信号，通过门控机制动态调整各模态影响权重。

支持平台

ACTalker 主要基于 Python 和 PyTorch 开发，可在支持相关环境的平台运行。目前项目已开源，提供了详细的代码和安装指南，方便开发者在本地或其他支持的平台上进行部署和开发。

团队介绍

ACTalker 是由香港科技大学联合腾讯和清华大学共同研发的成果。香港科技大学在人工智能和计算机视觉领域有着深厚的学术积累和研究实力；腾讯作为国内领先的互联网科技企业，在人工智能技术研发和应用场景探索方面具有丰富的经验和资源；清华大学则在计算机科学及相关领域拥有顶尖的科研团队和强大的技术创新能力。三者强强联合，共同打造了这款具有创新性和实用价值的视频生成框架。

项目资源

项目官网 ：https://harlanhong.github.io/publications/actalker
源码仓库 ：https://github.com/harlanhong/ACTalker
HuggingFace 模型库 ：https://huggingface.co/papers/2504.02542
arXiv 技术论文 ：https://arxiv.org/pdf/2504.02542

业务场景

虚拟主播 ：通过音频和面部表情等多种信号控制生成自然流畅的说话头视频，使虚拟主播更加生动逼真，更好地与观众互动，提升观众的观看体验。
远程会议 ：在远程会议中，可以用音频信号和参会者的表情信号生成自然的说话头视频，解决网络延迟导致的口型与声音不同步问题，还能在视频信号不佳时，通过音频和表情信号生成自然的面部视频，增强远程交流的真实感。
在线教育 ：在线教育场景中，教师可以用 ACTalker 生成自然的说话头视频，通过音频和表情信号的控制，使教学视频更加生动有趣，吸引学生的注意力，提高教学效果。
虚拟现实与增强现实 ：在虚拟现实（VR）和增强现实（AR）应用中，可以生成与虚拟环境或增强现实场景相匹配的说话头视频，提升用户的沉浸感和交互体验。
娱乐与游戏 ：在娱乐和游戏领域，可以为角色生成自然的说话头视频，增强角色的表现力和代入感，让游戏体验更加逼真和生动。