0

0

让大模型能听会说,国内机构开源全球首个端到端语音对话模型Mini-Omni

WBOY

WBOY

发布时间:2024-09-06 18:42:27

|

1340人浏览过

|

来源于机器之心

转载

让大模型能听会说,国内机构开源全球首个端到端语音对话模型Mini-Omni
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文出自启元世界多模态算法组,共同一作是来自清华大学的一年级硕士生谢之非与启元世界多模态负责人吴昌桥,研究兴趣为多模态大模型、LLM Agents 等。本论文上线几天内在 github 上斩获 1000+ 星标。

随着多类型大模型的飞速发展,全球 AI 已经进入到了多模交互时代。

2024 年 5 月,OpenAI 推出了全新的多模态模型 GPT4o,引起全球轰动。其中 GPT4o 展现出了与人类相近的自然语言交互能力,实现了 AI 能同时读懂人类语音中的内容及情绪,并实时做出反馈。同时,GPT4o 也给众多语音研究人员带来「新的春天」,语音文本多模态大模型成为热门研究方向。

实现类似 GPT4o 实时语音交互能力的核心是模型能够直接在语音模态上进行理解和推理,这与传统的语音对话功能有本质的不同。现有的语音对话系统中主要包含 3 个过程:首先将输入语音内容转换为文本,其次利用大语言模型进行文本推理,最后利用语音合成系统生成并输出语音。

然而,类似的多阶段串联系统存在一些缺陷,比如模型无法理解语音中包含的情绪及其它非文本内容信息;同时由于额外的语音识别及合成带来的时间开销导致 AI 回复迟缓等实时性问题。

针对以上问题,学术界开始研究支持端到端、语音到语音的多模态大模型。为方便结合大语言模型的研究成果,通常会将语音离散化为 Audio Token,并基于 Audio Token 进行学习和推理。这其中具有代表性的工作包括 SpeechGPT、Spectron 等,它们均采用 QuestionAudio-QuestionText-AnswerText-AnswerAudio 等形式来降低直接对语音进行学习推理的难度。

但同时,这些方法也需要生成完整的 AnswerText 后才能生成 AnswerAudio,无法解决实时性问题。

为解决上述问题,我们提出了 Mini-Omni,第一个开源的端到端实时语音多模态模型,支持语音输入、流式语音输出的多模态交互能力。具体来讲,我们提出了文本-语音同时生成的方案,通过让已生成的文本 token 指导生成语音 token,有效降低了直接推理语音内容的难度,同时避免了等待生成完整文本答案带来的时间消耗。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

让大模型能听会说,国内机构开源全球首个端到端语音对话模型mini-omni

  • 论文题目:Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming
  • 论文地址:https://arxiv.org/abs/2408.16725
  • 代码仓库:https://github.com/gpt-omni/mini-omni

针对多层级的音频编码方案,本文采用不同层级延迟并行输出的方案减小音频推理长度,有效解决实时性问题。同时还提出了多任务同时推理的生成方法进一步加强模型的语音推理能力。另一方面,本文所采用训练方案可有效迁移至任意语言大模型,通过增加少量参数及分阶段训练,在尽可能保留模型原始推理能力的同时,为模型加上 「听、说」的语音交互能力

为了验证方案的有效性,Mini-Omni 在使用仅 0.5B 的小模型和少量开源及合成数据的情况下,在实时语音问答及语音识别等方面表现出令人惊喜的效果。

总结来说,本文主要贡献为:

  • 提出了首个开源的端到端、实时语音交互的多模态模型解决方案,支持语音流式输出,不需要额外的 ASR 或 TTS 系统。
  • 推理过程中,可同时生成语音和文本信息,通过文本指导语音生成,有效降低语音推理的学习难度。
  • 提出多阶段的训练方案,可通过少量开源或合成数据使任意语言模型具备语音交互能力。让大模型能听会说,国内机构开源全球首个端到端语音对话模型Mini-Omni
Mini-Omni 模型架构

Mini-Omni 整体模型框架如下图所示,模型输入端可以是语音或文本,输出端同时包含文本和语音。为复用语言模型「预测下一个 token」的学习范式,输出侧语音采用离散编码,本文采用了 SNAC 编解码方案。

针对语音交互场景,输入语音经过预训练 whisper 的语音编码模块进行连续特征提取,然后通过 2 层 MLP 对齐语音信息与文本信息。输出侧,每一步会通过音频解码头和文本解码头同时进行文本 token 与语音 token 解码,然后将输出的音频表征和文本表征进行特征融合,再作为下一步的输入。同时,在推理过程中,可将输出的语音 token 流式输入至 SNAC 解码器中生成语音,实现低延迟的语音交互。

通过采用文本信息指导语音信息输出的形式,有效降低了直接进行语音输出推理的学习难度,实现少量数据即可使语言模型具备语音问答能力。这种一边生成文本,一边生成对应语音的形式功能上类似于「在线 TTS 系统 (online TTS)」,具有较好的灵活性。
让大模型能听会说,国内机构开源全球首个端到端语音对话模型Mini-Omni
文本指导下的音频生成

为降低直接推理语音信息的学习难度,以及减少推理过程中语音 token 长度,我们采用了文本和语音延迟并行生成的方案,其示意图如下。

让大模型能听会说,国内机构开源全球首个端到端语音对话模型Mini-Omni

本文所采用的 SNAC 方案,每一帧具有 7 个有效语音 token,对应音频时长为 80ms。一种语音建模方案是将语音的所有 token 平铺展开进行顺序推理,类似方案在音乐生成领域已被验证生成效果较好。但也存在语音 token 序列长、学习难度高等问题。为实现实时语音推理,我们采用延迟并行推理的方案

具体来讲,模型每一步同时生成 8 个 token,包括 7 个语音 token 和 1 个文本 token。由于音频依赖文本内容,而音频的 7 个 token 之间从前到后是由粗到细的建模关系,所以在推理开始时如上图 (b) 所示。首先生成文本的第一个 token,然后生成文本的第二个 token 和第一层音频的第一个 token,以此类推。先输出文本 token 主要为了语音 token 在生成过程中有文本内容进行参考。

同时,由于文本指导语音生成方案的灵活性,我们在实验中发现,推理时在一个批次中同时进行 audio-to-audio 和 audio-to-text 两个任务,并用后者的文本 token 替换前者的文本 token 以指导前者的语音生成(如上图 c 中所示),可有效提升语音对话的能力。

让每个模型都能「听说」

我们提出了一种主要基于适配器的模型能力扩展方法,具体学习过程可以分为三个阶段:

首先模态对齐:此阶段的目标是增强文本模型理解和生成语音的能力。过程中,Mini-Omni 的 LLM 模块完全冻结,只在语音理解和生成两个适配器中进行梯度更新。在这个阶段,我们使用开源语音识别 (ASR) 和语音合成 (TTS) 数据集来进行训练。

其次适应训练:完成新的模态与文本模态的输入对齐后,将语音适配器冻结。在这个阶段中,我们将可用的文本问答对中的问题部分采用开源多音色的语音合成系统进行语音数据合成,生成语音问答数据集。我们关注于训练模型在给定音频输入时的文本推理能力。模型使用语音识别 (ASR)、语音问答 (AudioTextQA) 和文本问答 (TextTextQA) 任务的数据集进行训练。

最后多模态微调:在最后阶段,我们使用全面的数据对整个模型进行微调,新增如全语音问答 (AudioAudioQA)、文本语音问答 (TextAudioQA) 等形式数据集。此时,除了音频所有模型权重都会参与训练。由于适配器训练期间已经处理了主要的模态对齐任务,原始模型的能力得以最大限度地保留。

通过上述多阶段的训练流程,结合开源语音数据,本文只需合成少量的语音问答数据即可使任意语言模型具备「听说」的能力,实现纯语音的端到端自然交互

实验效果

我们主要采用开源语音或文本问答数据进行训练,具体可参考下表。其中 A1 和 T1 表示音频及对应的文本内容,A2、T2 同理。针对问答场景,1 表示问题,2 表示对应问答的答案。

让大模型能听会说,国内机构开源全球首个端到端语音对话模型Mini-Omni

ArrowMancer
ArrowMancer

手机上的宇宙动作RPG,游戏角色和元素均为AI生成

下载
下图中,我们展示了 Audio-to-Text、Audio-to-Audio、Batch-Audio-to-Audio 三种任务中 Mini-Omni 的具体表现。

让大模型能听会说,国内机构开源全球首个端到端语音对话模型Mini-Omni

更多研究细节,可参考原论文。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
while的用法
while的用法

while的用法是“while 条件: 代码块”,条件是一个表达式,当条件为真时,执行代码块,然后再次判断条件是否为真,如果为真则继续执行代码块,直到条件为假为止。本专题为大家提供while相关的文章、下载、课程内容,供大家免费下载体验。

94

2023.09.25

登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6137

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

816

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1064

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1313

2024.03.01

github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

643

2026.01.21

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

406

2023.08.14

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2065

2024.08.16

拼多多赚钱的5种方法 拼多多赚钱的5种方法
拼多多赚钱的5种方法 拼多多赚钱的5种方法

在拼多多上赚钱主要可以通过无货源模式一件代发、精细化运营特色店铺、参与官方高流量活动、利用拼团机制社交裂变,以及成为多多进宝推广员这5种方法实现。核心策略在于通过低成本、高效率的供应链管理与营销,利用平台社交电商红利实现盈利。

31

2026.01.26

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号