ChatAnyone – 阿里巴巴通义实验室的实时风格化肖像视频生成框架

未分类 2025-06-23 0:29

ChatAnyone是什么

ChatAnyone 是阿里巴巴通义实验室推出的一款实时风格化肖像视频生成框架。它能够通过音频输入，生成具有丰富表情和上半身动作的肖像视频，实现了从“会说话的头”到上半身互动的高保真动画生成，支持多样化的面部表情和风格控制。

核心功能

音频驱动的肖像视频生成 ：以音频为输入源，自动生成对应的表情和上半身动作视频，使数字人或虚拟形象能根据语音实时做出自然反应。
高保真度与自然度 ：生成的肖像视频具备自然的面部表情和流畅的肢体动作，能高度还原真实人物的神态和动作，使视频效果更加逼真。
实时交互 ：在视频聊天等场景中，可实时生成视频，为用户带来即时互动体验，让远程交流更显真实。
风格化控制 ：用户可按需调整表情风格，还能对整体视频风格进行个性化定制，如将风格切换为二次元等，满足不同创作需求。

技术原理

分层运动扩散模型 ：输入音频信号后，输出面部和身体的控制信号，融合显式与隐式运动信号，生成多样化的面部表情，实现头部与身体动作同步，支持不同强度的表情变化及风格迁移。
混合控制融合生成模型 ：结合显式地标和隐式偏移量，生成逼真面部表情，注入显式手部控制信号，让手部动作更精准自然，并通过面部优化模块增强面部逼真度。
可扩展的实时生成框架 ：支持从头部驱动动画到包含手势的上半身生成，在 4090GPU 上，可最高以 512×768 分辨率、30fps 速度实时生成上半身肖像视频。

支持平台

目前未明确官方支持的具体平台，但从其项目开源信息来看，主要基于Linux系统进行开发和部署。

团队介绍

ChatAnyone 由阿里巴巴的 HumanAIGC 团队开发，该团队专注于以人为中心的生成式 AI 技术，在相关领域有丰富的研究成果，如实时肖像视频生成、虚拟试穿和人物动画等。

项目资源

项目官网 ：https://humanaigc.github.io/chat-anyone/
GitHub 仓库 ：https://github.com/HumanAIGC/chat-anyone
arXiv 技术论文 ：https://arxiv.org/pdf/2503.21144

业务场景

虚拟主播 ：为虚拟主播提供自然生动的表情和动作，提升直播效果和观众体验。
视频会议 ：在视频会议中，生成更自然的与会者形象，提高会议的互动性和参与感。
内容创作 ：帮助创作者快速生成视频素材，降低制作成本，提高创作效率。
教育领域 ：可用于在线教育中的虚拟教师形象展示，增加教学的趣味性和吸引力。
客户服务 ：在客户服务场景中，生成虚拟客服形象，提供更直观和友好的服务。
营销场景 ：在广告宣传等营销活动中，通过生成个性化的视频内容，吸引用户注意力，提升营销效果。
社交娱乐 ：为社交平台用户提供特征，增强用户的娱乐体验。

发表回复取消回复