ChatAnyone – 阿里巴巴通义实验室的实时风格化肖像视频生成框架
ChatAnyone是什么
ChatAnyone 是阿里巴巴通义实验室推出的一款实时风格化肖像视频生成框架。它能够通过音频输入,生成具有丰富表情和上半身动作的肖像视频,实现了从“会说话的头”到上半身互动的高保真动画生成,支持多样化的面部表情和风格控制。
核心功能
- 音频驱动的肖像视频生成 :以音频为输入源,自动生成对应的表情和上半身动作视频,使数字人或虚拟形象能根据语音实时做出自然反应。
- 高保真度与自然度 :生成的肖像视频具备自然的面部表情和流畅的肢体动作,能高度还原真实人物的神态和动作,使视频效果更加逼真。
- 实时交互 :在视频聊天等场景中,可实时生成视频,为用户带来即时互动体验,让远程交流更显真实。
- 风格化控制 :用户可按需调整表情风格,还能对整体视频风格进行个性化定制,如将风格切换为二次元等,满足不同创作需求。
技术原理
- 分层运动扩散模型 :输入音频信号后,输出面部和身体的控制信号,融合显式与隐式运动信号,生成多样化的面部表情,实现头部与身体动作同步,支持不同强度的表情变化及风格迁移。
- 混合控制融合生成模型 :结合显式地标和隐式偏移量,生成逼真面部表情,注入显式手部控制信号,让手部动作更精准自然,并通过面部优化模块增强面部逼真度。
- 可扩展的实时生成框架 :支持从头部驱动动画到包含手势的上半身生成,在 4090GPU 上,可最高以 512×768 分辨率、30fps 速度实时生成上半身肖像视频。
支持平台
目前未明确官方支持的具体平台,但从其项目开源信息来看,主要基于Linux系统进行开发和部署。
团队介绍
ChatAnyone 由阿里巴巴的 HumanAIGC 团队开发,该团队专注于以人为中心的生成式 AI 技术,在相关领域有丰富的研究成果,如实时肖像视频生成、虚拟试穿和人物动画等。
项目资源
- 项目官网 :https://humanaigc.github.io/chat-anyone/
- GitHub 仓库 :https://github.com/HumanAIGC/chat-anyone
- arXiv 技术论文 :https://arxiv.org/pdf/2503.21144
业务场景
- 虚拟主播 :为虚拟主播提供自然生动的表情和动作,提升直播效果和观众体验。
- 视频会议 :在视频会议中,生成更自然的与会者形象,提高会议的互动性和参与感。
- 内容创作 :帮助创作者快速生成视频素材,降低制作成本,提高创作效率。
- 教育领域 :可用于在线教育中的虚拟教师形象展示,增加教学的趣味性和吸引力。
- 客户服务 :在客户服务场景中,生成虚拟客服形象,提供更直观和友好的服务。
- 营销场景 :在广告宣传等营销活动中,通过生成个性化的视频内容,吸引用户注意力,提升营销效果。
- 社交娱乐 :为社交平台用户提供特征,增强用户的娱乐体验。