KeySync – 革新唇形同步的 AI 产品

未分类 2025-06-22 14:39

KeySync 是帝国理工学院和弗罗茨瓦夫大学联合推出的高分辨率口型同步框架，可将输入音频与视频中的口型动作精准对齐，解决了现有方法在时间一致性、表情泄漏及面部遮挡处理上的不足，适用于自动配音等领域。

高分辨率唇部同步 ：能生成 512×512 分辨率的高清视频，使唇部动作与音频高度匹配，提升视觉效果和同步精度，满足专业影视制作等高质量内容创作的需求。
减少表情泄露 ：创新掩码策略覆盖下脸区域，保留必要上下文信息，防止输入视频中的表情泄露，确保唇部动作仅由音频驱动，让生成视频更自然。
遮挡处理 ：推理时自动识别并排除手部、物体等遮挡物，利用预训练视频分割模型重建唇部区域，避免不自然边界，确保生成视频自然性。
时间一致性 ：采用两阶段生成方法，先生成关键帧捕捉主要唇部动作，再插值生成中间帧，保障唇部动作平滑过渡，无帧间不连续性。

两阶段生成框架 ：第一阶段生成关键帧，模型接收身份帧与带噪视频输入拼接生成；第二阶段以两个连续关键帧及可学习中间嵌入向量为条件，融合音频嵌入，生成中间帧。
潜扩散模型 ：在低维潜空间去噪，提高计算效率，逐步将随机噪声转化为结构化视频数据。
掩码策略 ：基于面部关键点计算创建掩码，覆盖下脸区域并保留必要上下文信息，平衡上下文保留与表情泄漏矛盾。
音频与视频对齐 ：用 HuBERT 音频编码器将音频转为特征表示，经注意力机制嵌入视频生成模型，确保唇部动作与音频精确同步。
损失函数 ：结合潜空间损失和像素空间 L2 损失，优化视频生成质量，确保唇部区域与音频对齐。

KeySync 支持 Windows、macOS 和 Linux 三大操作系统，为不同用户群体提供了广泛适用性，无论是在个人电脑还是服务器环境，均能实现高效的唇形同步处理。

KeySync 由帝国理工学院与弗罗茨瓦夫大学的研究团队联手打造。帝国理工学院在计算机科学、人工智能等领域具有深厚学术底蕴与科研实力；弗罗茨瓦夫大学也拥有多支优秀的研究队伍，在图像处理、机器学习等方面成果丰硕。两校强强联合，为 KeySync 的研发提供了坚实的技术支撑与创新动力。