ACE-Step 1.5— ACE Studio联合StepFun开源的音乐生成模型

霞舞

发布时间：2026-02-05 18:58:24

907人浏览过

来源于php中文网

原创

ACE-Step 1.5 是什么

ace-step 1.5 是由 ace studio 与 stepfun 联合研发并开源的高性能音乐生成基础模型，专为消费级硬件优化，可在普通显卡上实现媲美专业级的音乐创作能力。该模型采用创新的混合架构：语言模型担任“音乐规划师”，将用户输入的自然语言提示解析为结构化歌曲蓝图；diffusion transformer 则作为“声学渲染引擎”，负责将蓝图高保真地转化为音频波形。借助仅需 4–8 步的蒸馏推理策略，在 a100 上生成一首 4 分钟完整歌曲耗时约 2 秒，rtx 3090 约为 10 秒，显存占用稳定控制在 4gb 以内。ace-step 1.5 兼容 50 余种语言，支持精细化风格调控，并内置翻唱、音频重绘、人声转伴奏等多模态编辑功能；用户仅需少量目标风格音频，即可通过 lora 微调快速构建专属音乐风格模型。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

ACE-Step 1.5— ACE Studio联合StepFun开源的音乐生成模型

ClipSketch AI

将视频瞬间转化为手绘故事

下载

ACE-Step 1.5 的核心能力

端到端音乐生成：支持从纯文本指令一键生成完整歌曲，涵盖 50+ 语言的歌词演唱能力，输出时长可自由设定——从 10 秒节奏循环到 10 分钟交响式编曲均可灵活适配。
全链路音频编辑：集成六大实用编辑模式：音频重绘（inpainting）、跨歌手翻唱、人声提取为伴奏、音轨智能分离、多层叠加编曲、以及基于已有片段的智能续写补全，赋予创作者对音频素材的深度再塑权。
精准风格执行：能准确理解并响应含专业音乐术语（如“Dorian 调式”、“swing feel”、“staccato strings”）的复杂提示，实现零样本音色迁移与强约束下的风格一致性保持。
轻量个性化建模：无需大规模数据，仅用数首参考曲目即可启动 LoRA 微调流程，数分钟内完成个人风格模型定制，显著降低风格复刻门槛。
极致推理效率：模型可在显存低于 4GB 的主流消费级 GPU（如 RTX 3060/4060）本地部署，单次生成延迟达亚秒级，并支持批量并发采样，高效探索多样化创意候选方案。

ACE-Step 1.5 的技术实现原理

双阶段混合推理架构：模型解耦为“语义规划”与“声学合成”两个协同模块。语言模型基于 Qwen3-0.6B 构建，扮演“作曲家智能体”，通过思维链（Chain-of-Thought）推理，将用户提示转化为结构清晰的 YAML 格式蓝图（含 BPM、调性、段落结构、歌词文本及声学特征描述）；Diffusion Transformer（参数量约 20 亿）专注音频渲染任务，接收标准化条件信号，聚焦于高保真波形重建。该分工大幅减轻 DiT 的语义理解压力，同时使语言模型可通过多任务预训练，稳健支撑跨语言歌词对齐。
对抗动态偏移蒸馏技术：为突破扩散模型传统长步数瓶颈，团队提出新型知识蒸馏范式——以 Decoupled DMD2 为基底，引入 GAN 风格判别器与隐空间动态反馈机制，并在训练中随机采样 {1,2,3} 偏移步长，迫使学生模型学习更鲁棒的中间去噪状态分布。最终将推理步数压缩至 4–8 步，在 A100 上生成 240 秒音频仅需约 1 秒，提速超 200 倍；且对抗式训练反向提升音质，使 student 模型在客观指标与主观听感上均超越 teacher。
统一内在强化学习对齐框架：摒弃依赖外部人工标注的奖励机制，构建端到端自监督对齐系统。针对 DiT，设计注意力对齐分数（AAS）作为内在奖励信号，融合动态时间规整（DTW）计算歌词 token 覆盖率、注意力路径单调性与置信度，优化后歌词-音频同步精度与人类评估相关性 >95%；针对 LM，则采用 GRPO（Generalized Reinforcement Learning with Preference Optimization）算法，以点互信息（PMI）构建无偏奖励模型，将语言模型同时建模为“作曲家”与“听众”，PMI 显式抑制泛化描述、鼓励具象化标注，最终按风格氛围（50%）、歌词内容（30%）、元数据约束（20%）进行动态加权奖励分配。
统一掩码驱动生成范式：采用有限标量量化（FSQ）将连续音频隐变量离散化为 5Hz 粒度的紧凑代码本表示，构建高度统一的掩码生成框架。通过对源隐变量与掩码策略的灵活操控，单一模型无缝支持六类生成任务：文本→音乐、翻唱、重绘、人声/伴奏分离、多轨层叠、以及片段续写。FSQ 利用注意力池化将原始 25Hz 隐空间压缩为结构化源隐变量，再与噪声目标、掩码张量拼接，经 patchify 层统一编码，显著简化多任务联合训练；量化机制亦有效保障旋律轮廓与节奏骨架在跨模态转换中的高保真留存。

ACE-Step 1.5 的官方资源入口

项目官网：https://www.php.cn/link/df1d759af9661d783a0a36ef0ef288e9
GitHub 仓库：https://www.php.cn/link/06378740f8289579d27c4575e5dcfe13
arXiv 技术论文：https://www.php.cn/link/c411fcc0b7f0f270042d924fc2e98bd7
在线交互 Demo：https://www.php.cn/link/52b8e6d0773472f490daafa68658b651

ACE-Step 1.5 的典型应用方向

专业音乐创作辅助：作曲人、制作人可将其作为实时灵感引擎，将模糊创意或文字草稿快速转化为可听、可改、可演化的完整音乐原型，有效打破创作卡点。
垂类内容风格化生产：短视频博主、播客主理人、独立游戏开发者等可通过 LoRA 快速训练专属 BGM 模型，批量产出风格统一、情绪匹配的背景音乐，强化品牌听觉识别体系。
全球化多语种音乐开发：依托对 50+ 语言的原生支持，适用于跨国音乐发行、非遗小语种保护性创作、跨文化联合制作等场景，填补非英语市场高质量 AI 音乐供给空白。
音乐教育与理论实践：学习者可输入特定音乐概念（如“ii-V-I 进行”、“Phrygian dominant mode”），即时获得对应音频示例，实现“所学即所听”的沉浸式理论验证与听觉建模。