KeySync – 革新唇形同步的 AI 产品

KeySync 是什么

KeySync 是帝国理工学院和弗罗茨瓦夫大学联合推出的高分辨率口型同步框架,可将输入音频与视频中的口型动作精准对齐,解决了现有方法在时间一致性、表情泄漏及面部遮挡处理上的不足,适用于自动配音等领域。

核心功能

  • 高分辨率唇部同步 :能生成 512×512 分辨率的高清视频,使唇部动作与音频高度匹配,提升视觉效果和同步精度,满足专业影视制作等高质量内容创作的需求。
  • 减少表情泄露 :创新掩码策略覆盖下脸区域,保留必要上下文信息,防止输入视频中的表情泄露,确保唇部动作仅由音频驱动,让生成视频更自然。
  • 遮挡处理 :推理时自动识别并排除手部、物体等遮挡物,利用预训练视频分割模型重建唇部区域,避免不自然边界,确保生成视频自然性。
  • 时间一致性 :采用两阶段生成方法,先生成关键帧捕捉主要唇部动作,再插值生成中间帧,保障唇部动作平滑过渡,无帧间不连续性。

技术原理

  • 两阶段生成框架 :第一阶段生成关键帧,模型接收身份帧与带噪视频输入拼接生成;第二阶段以两个连续关键帧及可学习中间嵌入向量为条件,融合音频嵌入,生成中间帧。
  • 潜扩散模型 :在低维潜空间去噪,提高计算效率,逐步将随机噪声转化为结构化视频数据。
  • 掩码策略 :基于面部关键点计算创建掩码,覆盖下脸区域并保留必要上下文信息,平衡上下文保留与表情泄漏矛盾。
  • 音频与视频对齐 :用 HuBERT 音频编码器将音频转为特征表示,经注意力机制嵌入视频生成模型,确保唇部动作与音频精确同步。
  • 损失函数 :结合潜空间损失和像素空间 L2 损失,优化视频生成质量,确保唇部区域与音频对齐。

支持平台

KeySync 支持 Windows、macOS 和 Linux 三大操作系统,为不同用户群体提供了广泛适用性,无论是在个人电脑还是服务器环境,均能实现高效的唇形同步处理。

团队介绍

KeySync 由帝国理工学院与弗罗茨瓦夫大学的研究团队联手打造。帝国理工学院在计算机科学、人工智能等领域具有深厚学术底蕴与科研实力;弗罗茨瓦夫大学也拥有多支优秀的研究队伍,在图像处理、机器学习等方面成果丰硕。两校强强联合,为 KeySync 的研发提供了坚实的技术支撑与创新动力。

项目资源

业务场景

  • 自动化配音 :在影视制作中进行语言翻译时,自动生成匹配新配音的唇部动作,提升观众观看体验,使配音乐与画面更协调。
  • 虚拟现实(VR)和增强现实(AR) :为虚拟角色或增强现实中的角色生成自然唇部动作,增强沉浸感,让用户更身临其境地感受虚拟与现实融合的世界。
  • 视频会议 :改善网络延迟下的唇部同步问题,提升远程通信自然感,使远程交流更顺畅、更逼真。
  • 动画制作 :快速生成角色唇部动画,提高制作效率,降低制作成本,帮助动画创作者更高效地打造优质动画作品。
  • 多语言内容本地化 :为不同语言配音生成匹配的唇部动作,提升本地化效果,让多语言内容更贴近目标受众,增强内容的可接受度和传播效果。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注