Ming-omni-tts— 蚂蚁集团开源的统一音频生成模型

霞舞

发布时间：2026-02-27 22:25:01

332人浏览过

来源于php中文网

原创

Ming-omni-tts是什么

ming-omni-tts 是蚂蚁集团开源的统一音频生成模型，采用自回归架构实现语音、音乐和音效的联合生成。模型支持通过自然语言指令对语速、音调、音量、情感和方言进行细粒度控制，粤语方言控制准确率达93%，情感控制准确率46.7%，超越cosyvoice3。技术上采用统一连续音频tokenizer和diffusion transformer架构，以12.5hz帧率处理多模态音频，通过”patch-by-patch”压缩策略将llm推理帧率降至3.1hz，在降低延迟的同时保持音质。16.8b参数版本在seed-tts-eval中文测试集上wer仅0.83%，超越seedtts和glm-tts。模型内置100+优质音色，支持零样本声音设计，提供docker镜像和gradio演示，适用于有声书、播客、多语言内容创作等场景。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Ming-omni-tts— 蚂蚁集团开源的统一音频生成模型

知元AI

AI智能语音聊天对讲问答 AI绘画 AI写作 AI创作助手工具

下载

Ming-omni-tts的主要功能

统一多模态音频生成：业界首个自回归模型，可在单通道中联合生成语音、环境音和音乐，实现”身临其境”的听觉体验。
细粒度语音控制：支持通过简单指令精确控制语速、音调、音量、情感和方言，粤语方言控制准确率高达93%，情感控制准确率达46.7%。
智能声音设计：内置100+优质音色，支持通过自然语言描述进行零样本声音设计。
高效推理优化：采用”Patch-by-Patch”压缩策略，将LLM推理帧率降至3.1Hz，显著降低延迟。
专业文本归一化：准确解析和朗读复杂数学表达式、化学方程式等专业格式，内部测试集CER仅1.97%。
多语言支持：支持中文、英文等多种语言的语音合成与跨语言迁移。
零样本TTS：仅需3-10秒参考音频即可克隆任意音色，在Seed-tts-eval上WER低至0.83%。

Ming-omni-tts的技术原理

统一连续音频Tokenizer：基于VAE的连续Tokenizer，以12.5Hz帧率将语音、音乐和通用音频整合到统一潜空间，支持多模态音频的联合建模。
Diffusion Transformer (DiT) Head：采用扩散头架构增强音频生成质量，提升音质细腻度和自然度。
Patch生成策略：采用patch大小为4、回溯历史为32的生成策略，在局部声学细节和长期结构连贯性之间取得平衡。
自回归生成架构：业界首个在单通道中联合生成语音、音乐和音效的自回归模型，实现统一音频生成。
“Patch-by-Patch”压缩机制：通过压缩策略将LLM推理帧率从原始频率降至3.1Hz，大幅降低计算延迟和推理成本。
指令微调对齐：通过指令微调实现对语速、音调、音量、情感和方言的细粒度控制，支持自然语言指令解析。

Ming-omni-tts的项目地址

GitHub仓库：http://github.com/inclusionAI/Ming-omni-tts
Hugging Face模型库：
- http://modelscope.cn/models/inclusionAI/Ming-omni-tts-16.8B-A3B
- http://huggingface.co/inclusionAI/Ming-omni-tts-0.5B