Muyan-TTS – 开源零样本语音合成的先锋

未分类 2025-06-22 14:21

Muyan-TTS 是什么

Muyan-TTS 是一款专为播客、有声书及长视频等长文本场景设计的开源文本转语音模型，由北京沐言智语科技有限公司发布。它基于超过 10 万小时的播客音频数据预训练，具备零样本语音合成能力，即无需大量目标说话人的语音数据进行微调，仅需参考音频与提示文本，就能生成高质量语音。其预训练数据量庞大，以惊人的自然度合成任意文本的语音，在播客音色、情绪与语速方面表现出色。

核心功能

零样本语音合成 ：无需任何训练即可生成高质量语音，仅需参考音频与提示文本，极大降低了使用门槛，节省了时间和资源。
说话人适配与个性化语音定制 ：支持通过几十分钟目标说话人语音的微调实现个性化语音克隆，能够满足多样化场景需求，如为数字人、虚拟主播构建独特语音风格等。
多模型推理选择 ：支持 base（零样本）与 sft（微调）两种合成模式，还支持 VLLM 加速推理，加速大语言模型部分，提高生成效率。
高效推理速度 ：在单块 NVIDIA A100 GPU 上每秒音频生成约 0.33 秒，是目前开源模型中推理速度最快的之一，适合实时应用和大规模语音生成任务。
长内容连贯合成 ：能自然连贯地合成长篇内容，如播客、有声书等，不会出现卡顿或不连贯的情况，确保了语音输出的流畅性和完整性。
本地部署与 API 集成 ：支持本地推理，可部署本地服务，通过 API 部署接口快速集成到生产系统中，方便企业保护数据隐私和实现低延迟应用。

技术原理

框架设计 ：基于 GPT-SoVITS 框架，用预训练的 Llama-3.2-3B 作为语言模型，结合 SoVITS 模型进行音频解码。LLM 负责将文本和音频 token 对齐，生成中间表示，SoVITS 模型将中间表示解码为音频波形。
数据处理 ：数据集包含超过 10 万小时的播客音频数据，经过多阶段处理，包括数据收集、清洗和格式化等，确保高质量和多样性。同时，用自动语音识别模型将音频转录为文本，将音频嵌入量化为离散 token，形成平行语料库。
预训练与微调 ：LLM 在平行语料库上进行预训练，学习文本和音频 token 之间的关系。基于监督微调，用少量目标说话人的语音数据进一步优化模型，提高语音合成的自然度和相似度。
解码器优化 ：基于 VITS 基础模型作为解码器，减少幻觉问题，提高语音生成的稳定性和自然度。解码器在高质量音频数据上进行微调，进一步提升合成语音的保真度和表现力。
推理加速 ：采用高效的内存管理和并行推理技术，提高推理速度，降低延迟。支持 API 模式，自动启用加速功能，适合实时应用。

支持平台

Muyan-TTS 支持多种操作系统，包括 Linux、Windows 等，开发语言主要为 Python，具有良好的跨平台兼容性，可在不同硬件配置的设备上运行，从消费级电脑到高性能服务器等均能适配。

团队介绍

Muyan-TTS 由北京沐言智语科技有限公司推出，该公司在语音合成领域拥有深厚的技术积累和专业的研发团队。团队成员在人工智能、语音处理、自然语言处理等多领域具备丰富经验，致力于推动语音合成技术的发展和应用。

项目资源

GitHub 仓库 ：https://github.com/MYZY-AI/Muyan-TTS
Hugging Face 模型库 ：https://huggingface.co/MYZY-AI/Muyan-TTS
arXiv 技术论文 ：https://arxiv.org/pdf/2504.19146

业务场景

播客制作 ：播客制作人可快速将文案转化为自然语音，极大减少录音与剪辑工作量，提高内容生产效率，将更多精力投入到创意和策划中。
有声书制作 ：能批量生成高质量语音内容，加速有声书及教育内容的上架，为读者提供更丰富的听觉体验，拓展内容传播渠道。
语音助手开发 ：为对话机器人提供个性语音表达，提升用户体验，使其更具亲和力和吸引力，增强产品的竞争力。
数字人 / 虚拟主播 ：构建拥有独特语音风格的数字形象，便于在社交媒体等平台传播，为企业和创作者打造具有辨识度的虚拟品牌代言人。
语言学习平台 ：合成标准、真实的语音内容，用于听力训练或自动朗读，帮助学习者更直观地感受语言的发音、语调和表达方式，提高语言学习效果。