FlexiAct – 灵活动作控制的未来已来

FlexiAct是由清华大学与腾讯ARC实验室联合开发的先进动作迁移模型,能够在异构场景中将参考视频中的动作精准迁移到目标主体上,即使在空间结构差异显著或跨域的场景中,也能保持动作的适配性和外观一致性。

核心功能

FlexiAct具备以下核心功能:

  • 跨主体动作迁移:支持将动作从一个人物迁移到另一个人物,甚至可以实现从人类到动物的动作转移。
  • 保持外观一致性:在动作迁移过程中,确保目标主体的外观特征(如服装、发型等)与原始目标图像高度一致,避免视觉失真。
  • 空间结构灵活适配:即使参考视频和目标图像在布局、视角及骨架结构上存在差异,FlexiAct也能实现自然流畅的动作转换。

技术原理

FlexiAct的技术核心包括两个关键模块:

  • RefAdapter(空间结构适配器):通过在训练过程中随机选择视频帧作为条件输入,增强模型对多样姿态、布局及视角的适应能力。该模块通过注入少量可训练参数(如LoRA模块),在CogVideoX-I2V模型的MMDiT层中实现灵活的空间适配。
  • 频率感知动作提取(FAE):FAE是一种创新的动作提取方法,直接在去噪过程中完成动作信息的提取,无需依赖独立的时空架构。该模块基于动态调整注意力权重,在早期时间步优先提取动作特征,在后期时间步聚焦细节还原,从而实现精准的动作控制。

支持平台

FlexiAct支持多种主流平台,包括:

  • Hugging Face:模型已在Hugging Face平台开源,方便用户快速使用。
  • GitHub:提供完整的代码库,供开发者进行进一步研究和开发。
  • 兼容框架:支持PyTorch和TensorFlow框架,便于开发者根据需求进行选择。

团队介绍

FlexiAct由清华大学深圳国际研究生院和腾讯ARC实验室联合开发。开发团队在人工智能领域拥有深厚的技术积累和丰富的研究经验,致力于推动计算机视觉和动作控制技术的发展。

项目资源

  • 官方网站:https://shiyi-zh0408.github.io/projectpages/FlexiAct/
  • GitHub代码库:https://github.com/shiyi-zh0408/FlexiAct
  • HuggingFace模型库:https://huggingface.co/shiyi0408/FlexiAct
  • 技术论文:https://arxiv.org/pdf/2505.03730

业务场景

FlexiAct在多个领域具有广泛的应用前景:

  • 影视制作:将静态图片转化为动态画面,复用已有动作数据,降低制作成本。
  • VR/AR应用:为虚拟形象创建动作,增强现实中的动作交互。
  • 游戏开发:批量生成NPC动画,定制玩家角色动作。
  • 动画创作:为动画角色添加自然流畅的动作,提升创作效率。

FlexiAct凭借其卓越的技术性能和广泛的应用场景,正在成为动作迁移领域的重要工具,为内容创作和交互应用带来新的可能性。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注