TaoAvatar – 开启虚拟人新时代的钥匙
TaoAvatar是什么
TaoAvatar 是阿里巴巴达摩院自动驾驶实验室梦飞团队推出的高保真、轻量级的 3D 全身对话虚拟人技术。它基于 3D 高斯溅射(3DGS)技术开发,能够从多视角图像序列中生成逼真的、拓扑结构一致的 3D 全身虚拟形象,支持对姿态、手势和表情的精细控制,可实现口型、表情和动作的自然同步,且能在多种移动和 AR 设备上以 90FPS 的高帧率实时运行,同时保持低存储需求。
核心功能
- 高保真全身动态虚拟形象生成 :利用多尺度 GAN 渲染架构,结合姿态估计网络和细节增强网络,从多视角图中生成高保真、全动态的虚拟人形象,语义化身体部位建模方式使其更易于控制。
- 实时渲染与低存储需求 :采用 3D 高斯溅射等先进技术,在移动设备和 AR 终端上以 90 帧 / 秒的高帧率运行,支持高分辨率渲染,存储需求低,如无纹理参数的模型小于 10MB,单人物纹理在 20MB 左右。
- 多信号驱动 :可通过语音、表情、手势和身体姿势等多种信号驱动,借助 Audio2BS 模型等实现面部表情和手势的动态生成,让虚拟人表情动作自然流畅。
- 轻量级架构 :将复杂的非刚性变形 “烘焙” 到轻量级的 MLP 网络中,结合混合形状补偿细节,显著提高运行效率,降低对设备性能的要求。
技术原理
- 3D 高斯溅射(3DGS)技术 :用 3D 高斯函数表示场景中的点,投影到 2D 图像平面进行渲染。先通过结构光技术从多视角图像中估计 3D 点云,再将每个点转换为高斯函数,使用随机梯度下降进行训练。
- 姿态依赖非刚性变形处理 :将复杂的非刚性变形分解为刚性变形和形状变形两部分,通过知识蒸馏技术将形状变形 “烘焙” 到轻量级的 MLP 网络中,高效处理复杂姿态变形。
- 可学习的高斯混合形状 :训练神经网络学习不同姿态和表情下的高斯混合形状参数,并应用到虚拟形象上,使其在不同姿态和表情下保持高保真度。
- 教师 - 学生网络框架 :教师网络负责捕捉输入角色的非刚性动态,生成高斯点云序列;学生网络基于 MLPs 近似教师网络输出的形状和外观,实现参数化的全身Avatar,并通过自监督学习框架进行训练。
支持平台
TaoAvatar 具备良好的跨平台兼容性,能够部署在各种移动和 AR 设备上,如 Android、MacBook 和 Apple Vision Pro 等,为用户在不同设备上提供一致的高质量虚拟人体验。
团队介绍
TaoAvatar 的研发团队是阿里巴巴达摩院自动驾驶实验室梦飞团队。该团队在计算机视觉、图形学和机器学习等领域拥有深厚的技术积累和丰富的研发经验,凭借其专业能力和创新能力,成功打造了这一领先的 3D 全身对话虚拟人技术。
项目资源
- 项目官网 :https://pixelai-team.github.io/TaoAvatar/
- arXiv 技术论文 :https://arxiv.org/pdf/2503.17032
业务场景
- 虚拟助手与客服 :提供自然个性化的交互体验,可实时回答用户问题、解决用户需求,提升服务效率和质量。
- 在线教育 :实现虚拟教师形象的实时互动教学,使教学过程更加生动有趣,提高学生的学习积极性和参与度。
- 娱乐与社交 :在游戏、直播等领域创造更真实的虚拟角色,增强用户的沉浸感和互动性,为娱乐和社交带来全新体验。
- 企业培训 :用于员工培训和模拟场景演练,模拟各种工作场景和情况,让员工更好地掌握工作技能和应对方法。
- 电商直播 :虚拟主播可 24 小时不间断地进行商品展示和讲解,提升用户体验和互动效果,降低人力成本,提高销售转化率。
- 全息通信 :在远程通信中生成逼真的虚拟形象,让用户仿佛面对面交流,增强沟通的亲切感和真实感。