Muyan-TTS – 开源零样本语音合成的先锋
Muyan-TTS 是什么
Muyan-TTS 是一款专为播客、有声书及长视频等长文本场景设计的开源文本转语音模型,由北京沐言智语科技有限公司发布。它基于超过 10 万小时的播客音频数据预训练,具备零样本语音合成能力,即无需大量目标说话人的语音数据进行微调,仅需参考音频与提示文本,就能生成高质量语音。其预训练数据量庞大,以惊人的自然度合成任意文本的语音,在播客音色、情绪与语速方面表现出色。
核心功能
- 零样本语音合成 :无需任何训练即可生成高质量语音,仅需参考音频与提示文本,极大降低了使用门槛,节省了时间和资源。
- 说话人适配与个性化语音定制 :支持通过几十分钟目标说话人语音的微调实现个性化语音克隆,能够满足多样化场景需求,如为数字人、虚拟主播构建独特语音风格等。
- 多模型推理选择 :支持 base(零样本)与 sft(微调)两种合成模式,还支持 VLLM 加速推理,加速大语言模型部分,提高生成效率。
- 高效推理速度 :在单块 NVIDIA A100 GPU 上每秒音频生成约 0.33 秒,是目前开源模型中推理速度最快的之一,适合实时应用和大规模语音生成任务。
- 长内容连贯合成 :能自然连贯地合成长篇内容,如播客、有声书等,不会出现卡顿或不连贯的情况,确保了语音输出的流畅性和完整性。
- 本地部署与 API 集成 :支持本地推理,可部署本地服务,通过 API 部署接口快速集成到生产系统中,方便企业保护数据隐私和实现低延迟应用。
技术原理
- 框架设计 :基于 GPT-SoVITS 框架,用预训练的 Llama-3.2-3B 作为语言模型,结合 SoVITS 模型进行音频解码。LLM 负责将文本和音频 token 对齐,生成中间表示,SoVITS 模型将中间表示解码为音频波形。
- 数据处理 :数据集包含超过 10 万小时的播客音频数据,经过多阶段处理,包括数据收集、清洗和格式化等,确保高质量和多样性。同时,用自动语音识别模型将音频转录为文本,将音频嵌入量化为离散 token,形成平行语料库。
- 预训练与微调 :LLM 在平行语料库上进行预训练,学习文本和音频 token 之间的关系。基于监督微调,用少量目标说话人的语音数据进一步优化模型,提高语音合成的自然度和相似度。
- 解码器优化 :基于 VITS 基础模型作为解码器,减少幻觉问题,提高语音生成的稳定性和自然度。解码器在高质量音频数据上进行微调,进一步提升合成语音的保真度和表现力。
- 推理加速 :采用高效的内存管理和并行推理技术,提高推理速度,降低延迟。支持 API 模式,自动启用加速功能,适合实时应用。
支持平台
Muyan-TTS 支持多种操作系统,包括 Linux、Windows 等,开发语言主要为 Python,具有良好的跨平台兼容性,可在不同硬件配置的设备上运行,从消费级电脑到高性能服务器等均能适配。
团队介绍
Muyan-TTS 由北京沐言智语科技有限公司推出,该公司在语音合成领域拥有深厚的技术积累和专业的研发团队。团队成员在人工智能、语音处理、自然语言处理等多领域具备丰富经验,致力于推动语音合成技术的发展和应用。
项目资源
- GitHub 仓库 :https://github.com/MYZY-AI/Muyan-TTS
- Hugging Face 模型库 :https://huggingface.co/MYZY-AI/Muyan-TTS
- arXiv 技术论文 :https://arxiv.org/pdf/2504.19146
业务场景
- 播客制作 :播客制作人可快速将文案转化为自然语音,极大减少录音与剪辑工作量,提高内容生产效率,将更多精力投入到创意和策划中。
- 有声书制作 :能批量生成高质量语音内容,加速有声书及教育内容的上架,为读者提供更丰富的听觉体验,拓展内容传播渠道。
- 语音助手开发 :为对话机器人提供个性语音表达,提升用户体验,使其更具亲和力和吸引力,增强产品的竞争力。
- 数字人 / 虚拟主播 :构建拥有独特语音风格的数字形象,便于在社交媒体等平台传播,为企业和创作者打造具有辨识度的虚拟品牌代言人。
- 语言学习平台 :合成标准、真实的语音内容,用于听力训练或自动朗读,帮助学习者更直观地感受语言的发音、语调和表达方式,提高语言学习效果。