0

0

Ming-omni-tts— 蚂蚁集团开源的统一音频生成模型

霞舞

霞舞

发布时间:2026-02-27 22:25:01

|

332人浏览过

|

来源于php中文网

原创

Ming-omni-tts是什么

ming-omni-tts 是蚂蚁集团开源的统一音频生成模型,采用自回归架构实现语音、音乐和音效的联合生成。模型支持通过自然语言指令对语速、音调、音量、情感和方言进行细粒度控制,粤语方言控制准确率达93%,情感控制准确率46.7%,超越cosyvoice3。技术上采用统一连续音频tokenizer和diffusion transformer架构,以12.5hz帧率处理多模态音频,通过”patch-by-patch”压缩策略将llm推理帧率降至3.1hz,在降低延迟的同时保持音质。16.8b参数版本在seed-tts-eval中文测试集上wer仅0.83%,超越seedtts和glm-tts。模型内置100+优质音色,支持零样本声音设计,提供docker镜像和gradio演示,适用于有声书、播客、多语言内容创作等场景。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Ming-omni-tts— 蚂蚁集团开源的统一音频生成模型

知元AI
知元AI

AI智能语音聊天 对讲问答 AI绘画 AI写作 AI创作助手工具

下载

Ming-omni-tts的主要功能

  • 统一多模态音频生成:业界首个自回归模型,可在单通道中联合生成语音、环境音和音乐,实现”身临其境”的听觉体验。
  • 细粒度语音控制:支持通过简单指令精确控制语速、音调、音量、情感和方言,粤语方言控制准确率高达93%,情感控制准确率达46.7%。
  • 智能声音设计:内置100+优质音色,支持通过自然语言描述进行零样本声音设计。
  • 高效推理优化:采用”Patch-by-Patch”压缩策略,将LLM推理帧率降至3.1Hz,显著降低延迟。
  • 专业文本归一化:准确解析和朗读复杂数学表达式、化学方程式等专业格式,内部测试集CER仅1.97%。
  • 多语言支持:支持中文、英文等多种语言的语音合成与跨语言迁移。
  • 零样本TTS:仅需3-10秒参考音频即可克隆任意音色,在Seed-tts-eval上WER低至0.83%。

Ming-omni-tts的技术原理

  • 统一连续音频Tokenizer:基于VAE的连续Tokenizer,以12.5Hz帧率将语音、音乐和通用音频整合到统一潜空间,支持多模态音频的联合建模。
  • Diffusion Transformer (DiT) Head:采用扩散头架构增强音频生成质量,提升音质细腻度和自然度。
  • Patch生成策略:采用patch大小为4、回溯历史为32的生成策略,在局部声学细节和长期结构连贯性之间取得平衡。
  • 自回归生成架构:业界首个在单通道中联合生成语音、音乐和音效的自回归模型,实现统一音频生成。
  • “Patch-by-Patch”压缩机制:通过压缩策略将LLM推理帧率从原始频率降至3.1Hz,大幅降低计算延迟和推理成本。
  • 指令微调对齐:通过指令微调实现对语速、音调、音量、情感和方言的细粒度控制,支持自然语言指令解析。

Ming-omni-tts的项目地址

  • GitHub仓库:http://github.com/inclusionAI/Ming-omni-tts
  • Hugging Face模型库
    • http://modelscope.cn/models/inclusionAI/Ming-omni-tts-16.8B-A3B
    • http://huggingface.co/inclusionAI/Ming-omni-tts-0.5B

Ming-omni-tts的应用场景

  • 有声书与播客制作:支持长文本语音合成,Podcast TTS任务CER仅1.84%,适合有声读物、新闻播报和播客内容生成。
  • 多语言内容创作:支持中文、英文等多语言语音合成与跨语言音色迁移,满足全球化内容生产需求。
  • 游戏音效设计:可联合生成语音、环境音和音乐,为游戏场景提供沉浸式音频体验。
  • 教育培训领域:准确朗读复杂数学表达式、化学方程式等专业内容,适用于在线教育课件和学术讲解。
  • 智能客服与助手:内置100+优质音色,支持零样本声音克隆,可快速定制品牌专属语音助手。
  • 广告与营销配音:通过情感控制和方言支持,生成富有感染力的广告配音和本地化营销内容。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
ape怎么转wav
ape怎么转wav

ape可以通过使用音频转换软件、使用在线转换工具和音频编辑软件的方法转wav格式。在转换完成后,可以使用音频播放器或编辑软件打开转换后的WAV文件,以确保转换质量和文件完整性。更多关于ape相关的文章,详情请看本专题下面的文章。php中文网欢迎大家前来学习。

335

2023.11.21

ape怎么转wav
ape怎么转wav

ape可以通过使用音频转换软件、使用在线转换工具和音频编辑软件的方法转wav格式。在转换完成后,可以使用音频播放器或编辑软件打开转换后的WAV文件,以确保转换质量和文件完整性。更多关于ape相关的文章,详情请看本专题下面的文章。php中文网欢迎大家前来学习。

335

2023.11.21

Golang 并发编程模型与工程实践:从语言特性到系统性能
Golang 并发编程模型与工程实践:从语言特性到系统性能

本专题系统讲解 Golang 并发编程模型,从语言级特性出发,深入理解 goroutine、channel 与调度机制。结合工程实践,分析并发设计模式、性能瓶颈与资源控制策略,帮助将并发能力有效转化为稳定、可扩展的系统性能优势。

1

2026.02.27

Golang 高级特性与最佳实践:提升代码艺术
Golang 高级特性与最佳实践:提升代码艺术

本专题深入剖析 Golang 的高级特性与工程级最佳实践,涵盖并发模型、内存管理、接口设计与错误处理策略。通过真实场景与代码对比,引导从“可运行”走向“高质量”,帮助构建高性能、可扩展、易维护的优雅 Go 代码体系。

1

2026.02.27

Golang 测试与调试专题:确保代码可靠性
Golang 测试与调试专题:确保代码可靠性

本专题聚焦 Golang 的测试与调试体系,系统讲解单元测试、表驱动测试、基准测试与覆盖率分析方法,并深入剖析调试工具与常见问题定位思路。通过实践示例,引导建立可验证、可回归的工程习惯,从而持续提升代码可靠性与可维护性。

0

2026.02.27

漫蛙app官网链接入口
漫蛙app官网链接入口

漫蛙App官网提供多条稳定入口,包括 https://manwa.me、https

51

2026.02.27

deepseek在线提问
deepseek在线提问

本合集汇总了DeepSeek在线提问技巧与免登录使用入口,助你快速上手AI对话、写作、分析等功能。阅读专题下面的文章了解更多详细内容。

4

2026.02.27

AO3官网直接进入
AO3官网直接进入

AO3官网最新入口合集,汇总2026年可用官方及镜像链接,助你快速稳定访问Archive of Our Own平台。阅读专题下面的文章了解更多详细内容。

48

2026.02.27

php框架基础教程
php框架基础教程

本合集涵盖2026年最新PHP框架入门知识与基础教程,适合初学者快速掌握主流框架核心概念与使用方法。阅读专题下面的文章了解更多详细内容。

1

2026.02.27

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
10分钟--Midjourney创作自己的漫画
10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号