ACE-Step – 开源音乐生成基础模型，赋能音乐创作新时代

未分类 2025-06-22 14:38

ACE-Step 是什么

ACE-Step 是由 ACE Studio 和阶跃星辰（StepFun）联合开发的一款开源音乐生成基础模型，于 2025 年 5 月 7 日正式开源。它基于创新的架构设计，融合了扩散模型、深度压缩自编码器（DCAE）和轻量级线性变换器等多种先进技术，能够高效、连贯且可控地进行音乐创作，比传统 LLM 模型的生成速度快 15 倍。

核心功能

快速生成 ：在 A100 GPU 上仅需 20 秒即可生成 4 分钟的高质量音乐，还提供快速模式和慢速模式以满足不同创作需求。
风格多样 ：支持流行、摇滚、电子、爵士等所有主流音乐风格，以及 19 种语言的歌词生成，其中英语、中文等 10 种语言表现尤为出色。
变体生成 ：可通过调整噪声比例生成不同变体，为用户带来多样化的音乐选择。
精准编辑 ：支持对特定部分重新生成，修改风格、歌词或人声，也可对生成的音乐进行局部歌词修改，同时保持旋律和伴奏不变。
人声与器乐表现力佳 ：支持多种演唱风格及跨流派器乐生成，能精准还原乐器音色特征和自动适配乐器演奏技法。
多模态融合 ：可与其他模态模型联动，实现 “音乐 + 视觉” 的跨模态创作。

技术原理

扩散模型 ：通过逐步去除噪声生成数据，ACE-Step 基于创新架构解决了传统扩散模型在长结构连贯性上的不足。
深度压缩自编码器（DCAE） ：用于高效的数据压缩和解压缩，在保留音乐细粒度音频细节的同时，减少计算资源消耗。
轻量级线性变换器 ：负责处理音乐的序列信息，确保生成音乐在旋律、和声和节奏上的连贯性，并优化模型运行效率。
语义对齐 ：采用 MERT 和 m-hubert 技术，在训练过程中对齐语义表示，实现快速收敛和高质量的生成效果。
一阶段 DiT 架构与 REPA 技术 ：通过语义约束提升音频质量，使生成音乐在旋律流畅性、歌词契合度及情感表达力上表现优异.

支持平台

ACE-Step 支持在消费级 GPU 上运行，显著降低了硬件门槛，其兼容性良好，可适配多种主流操作系统和开发环境，为广泛的用户群体提供了便捷的使用条件。

团队介绍

ACE-Step 由 ACE Studio 和阶跃星辰（StepFun）联合开发。ACE Studio 是国内知名的数字音乐平台，拥有丰富的音乐资源和创作经验。阶跃星辰（StepFun）则是专注于人工智能技术研发的创新企业，其研发团队在多模态大模型领域具有深厚的技术积累。二者强强联合，充分发挥各自优势，打造出这款具有开创性的音乐生成基础模型。

项目资源

官网：https://ace-step.github.io/
GitHub 仓库 ：https://github.com/ace-step/ACE-Step
HuggingFace 模型库 ：https://huggingface.co/ACE-Step/ACE-Step-v1-3.5B
在线体验 Demo ：https://huggingface.co/spaces/ACE-Step/ACE-Step

业务场景

音乐创作 ：音乐人可快速生成高质量音乐作品，激发创意灵感，提高创作效率，也可用于创作前的素材探索和风格尝试。
内容创作 ：为视频创作者、广告制作人等提供背景音乐生成服务，根据不同的视频内容和情感需求，快速生成匹配的音乐，提升内容的吸引力。
教育辅助 ：作为音乐教学工具，帮助学生理解音乐创作的原理和过程，进行创作练习和风格模仿，辅助音乐教育的开展。
跨语言创作 ：支持多语言歌词生成功能，方便进行国际化音乐制作，促进不同文化之间的音乐交流与融合。