ACE-Step – 开源音乐生成基础模型,赋能音乐创作新时代

ACE-Step 是什么

ACE-Step 是由 ACE Studio 和阶跃星辰(StepFun)联合开发的一款开源音乐生成基础模型,于 2025 年 5 月 7 日正式开源。它基于创新的架构设计,融合了扩散模型、深度压缩自编码器(DCAE)和轻量级线性变换器等多种先进技术,能够高效、连贯且可控地进行音乐创作,比传统 LLM 模型的生成速度快 15 倍。

核心功能

  • 快速生成 :在 A100 GPU 上仅需 20 秒即可生成 4 分钟的高质量音乐,还提供快速模式和慢速模式以满足不同创作需求。
  • 风格多样 :支持流行、摇滚、电子、爵士等所有主流音乐风格,以及 19 种语言的歌词生成,其中英语、中文等 10 种语言表现尤为出色。
  • 变体生成 :可通过调整噪声比例生成不同变体,为用户带来多样化的音乐选择。
  • 精准编辑 :支持对特定部分重新生成,修改风格、歌词或人声,也可对生成的音乐进行局部歌词修改,同时保持旋律和伴奏不变。
  • 人声与器乐表现力佳 :支持多种演唱风格及跨流派器乐生成,能精准还原乐器音色特征和自动适配乐器演奏技法。
  • 多模态融合 :可与其他模态模型联动,实现 “音乐 + 视觉” 的跨模态创作。

技术原理

  • 扩散模型 :通过逐步去除噪声生成数据,ACE-Step 基于创新架构解决了传统扩散模型在长结构连贯性上的不足。
  • 深度压缩自编码器(DCAE) :用于高效的数据压缩和解压缩,在保留音乐细粒度音频细节的同时,减少计算资源消耗。
  • 轻量级线性变换器 :负责处理音乐的序列信息,确保生成音乐在旋律、和声和节奏上的连贯性,并优化模型运行效率。
  • 语义对齐 :采用 MERT 和 m-hubert 技术,在训练过程中对齐语义表示,实现快速收敛和高质量的生成效果。
  • 一阶段 DiT 架构与 REPA 技术 :通过语义约束提升音频质量,使生成音乐在旋律流畅性、歌词契合度及情感表达力上表现优异.

支持平台

ACE-Step 支持在消费级 GPU 上运行,显著降低了硬件门槛,其兼容性良好,可适配多种主流操作系统和开发环境,为广泛的用户群体提供了便捷的使用条件。

团队介绍

ACE-Step 由 ACE Studio 和阶跃星辰(StepFun)联合开发。ACE Studio 是国内知名的数字音乐平台,拥有丰富的音乐资源和创作经验。阶跃星辰(StepFun)则是专注于人工智能技术研发的创新企业,其研发团队在多模态大模型领域具有深厚的技术积累。二者强强联合,充分发挥各自优势,打造出这款具有开创性的音乐生成基础模型。

项目资源

业务场景

  • 音乐创作 :音乐人可快速生成高质量音乐作品,激发创意灵感,提高创作效率,也可用于创作前的素材探索和风格尝试。
  • 内容创作 :为视频创作者、广告制作人等提供背景音乐生成服务,根据不同的视频内容和情感需求,快速生成匹配的音乐,提升内容的吸引力。
  • 教育辅助 :作为音乐教学工具,帮助学生理解音乐创作的原理和过程,进行创作练习和风格模仿,辅助音乐教育的开展。
  • 跨语言创作 :支持多语言歌词生成功能,方便进行国际化音乐制作,促进不同文化之间的音乐交流与融合。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注