ChatAnyone – 阿里巴巴通义实验室的实时风格化肖像视频生成框架

ChatAnyone是什么

ChatAnyone 是阿里巴巴通义实验室推出的一款实时风格化肖像视频生成框架。它能够通过音频输入,生成具有丰富表情和上半身动作的肖像视频,实现了从“会说话的头”到上半身互动的高保真动画生成,支持多样化的面部表情和风格控制。

核心功能

  • 音频驱动的肖像视频生成 :以音频为输入源,自动生成对应的表情和上半身动作视频,使数字人或虚拟形象能根据语音实时做出自然反应。
  • 高保真度与自然度 :生成的肖像视频具备自然的面部表情和流畅的肢体动作,能高度还原真实人物的神态和动作,使视频效果更加逼真。
  • 实时交互 :在视频聊天等场景中,可实时生成视频,为用户带来即时互动体验,让远程交流更显真实。
  • 风格化控制 :用户可按需调整表情风格,还能对整体视频风格进行个性化定制,如将风格切换为二次元等,满足不同创作需求。

技术原理

  • 分层运动扩散模型 :输入音频信号后,输出面部和身体的控制信号,融合显式与隐式运动信号,生成多样化的面部表情,实现头部与身体动作同步,支持不同强度的表情变化及风格迁移。
  • 混合控制融合生成模型 :结合显式地标和隐式偏移量,生成逼真面部表情,注入显式手部控制信号,让手部动作更精准自然,并通过面部优化模块增强面部逼真度。
  • 可扩展的实时生成框架 :支持从头部驱动动画到包含手势的上半身生成,在 4090GPU 上,可最高以 512×768 分辨率、30fps 速度实时生成上半身肖像视频。

支持平台

目前未明确官方支持的具体平台,但从其项目开源信息来看,主要基于Linux系统进行开发和部署。

团队介绍

ChatAnyone 由阿里巴巴的 HumanAIGC 团队开发,该团队专注于以人为中心的生成式 AI 技术,在相关领域有丰富的研究成果,如实时肖像视频生成、虚拟试穿和人物动画等。

项目资源

业务场景

  • 虚拟主播 :为虚拟主播提供自然生动的表情和动作,提升直播效果和观众体验。
  • 视频会议 :在视频会议中,生成更自然的与会者形象,提高会议的互动性和参与感。
  • 内容创作 :帮助创作者快速生成视频素材,降低制作成本,提高创作效率。
  • 教育领域 :可用于在线教育中的虚拟教师形象展示,增加教学的趣味性和吸引力。
  • 客户服务 :在客户服务场景中,生成虚拟客服形象,提供更直观和友好的服务。
  • 营销场景 :在广告宣传等营销活动中,通过生成个性化的视频内容,吸引用户注意力,提升营销效果。
  • 社交娱乐 :为社交平台用户提供特征,增强用户的娱乐体验。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注