0

0

国内推出全新语音对话大模型:李开复领衔,零一万物参与,支持中英双语和多模态,开源并可商用

王林

王林

发布时间:2023-09-22 16:53:01

|

1517人浏览过

|

来源于51CTO.COM

转载

首个中英双语的语音对话开源大模型来了!

这几天,一篇关于语音-文本多模态大模型的论文出现在arXiv上,署名公司中出现了李开复旗下大模型公司01.ai——零一万物的名字。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

国内推出全新语音对话大模型:李开复领衔,零一万物参与,支持中英双语和多模态,开源并可商用图片

这篇论文介绍了一个名为LLaSM的中英双语可商用对话模型。该模型不仅支持录音和文本输入,而且能够实现“混合双打”的功能

国内推出全新语音对话大模型:李开复领衔,零一万物参与,支持中英双语和多模态,开源并可商用图片

研究指出,“语音聊天”是AI与人之间更方便自然的交互方式,不仅仅是通过文本输入

用上大模型,有网友已经在想象“躺着说话就能写代码”的场景了。

国内推出全新语音对话大模型:李开复领衔,零一万物参与,支持中英双语和多模态,开源并可商用图片

这项研究是由LinkSoul.AI、北京大学和零一万物共同完成的,目前已经开源,并且可以直接在抱抱脸中进行试玩

国内推出全新语音对话大模型:李开复领衔,零一万物参与,支持中英双语和多模态,开源并可商用图片

让我们一起来看看它的效果如何吧

支持文本语音输入,手机也可玩

据研究人员表示,LLaSM是第一个支持中英文双语语音-文本多模态对话的开源可商用对话模型。

那么,就来看看它的语音文本输入和中英双语能力如何。

首先,让我们进行一次中英文化碰撞,用英文来评价李白:

国内推出全新语音对话大模型:李开复领衔,零一万物参与,支持中英双语和多模态,开源并可商用图片

还可以,正确地说出了李白的朝代。如果看不懂英文,让它直接翻译成中文也没问题:

国内推出全新语音对话大模型:李开复领衔,零一万物参与,支持中英双语和多模态,开源并可商用图片

在接下来的练习中,让我们尝试一下中英混合提问,将一个“炸食物”一词加入到中文句子中。模型的输出效果也相当不错:

国内推出全新语音对话大模型:李开复领衔,零一万物参与,支持中英双语和多模态,开源并可商用图片

让我们再试探一下模型,让它进行一些评价,看看李白和杜甫哪个更厉害

可以观察到,在经过一段时间的思考后,这个模型给出了非常客观中立的评价,同时也具备了大型模型所必备的基本知识和常识(手动狗头)

国内推出全新语音对话大模型:李开复领衔,零一万物参与,支持中英双语和多模态,开源并可商用图片

当然,不止是电脑,手机也能玩。

我们试着用语音输入“给我推荐一个菜谱吧”:

可以看到模型准确地输出了一个“茄子芝士”的菜谱,就是不知道好不好吃。

不过,我们在尝试的时候也发现,这个模型有时候会出bug。

例如有时候它并不能很好地“听懂人话”。

要求输出中英混合的内容,它会假装看不懂并输出英文:

国内推出全新语音对话大模型:李开复领衔,零一万物参与,支持中英双语和多模态,开源并可商用图片

当中英混合询问想听“Taylor Swift的Red”时,模型出现了严重的错误,不断重复输出同一句话,甚至无法停止……

国内推出全新语音对话大模型:李开复领衔,零一万物参与,支持中英双语和多模态,开源并可商用图片

总体来看,当遇到中英混合的提问或要求时,模型输出能力还是不太行。

Civitai
Civitai

AI艺术分享平台!海量SD资源和开源模型。

下载

不过分开的话,它的中英文表述能力还是不错的。

那么,这样的模型究竟是怎么实现的呢?

做了个什么新模型?

从试玩来看,LLaSM主要有两个特点:一个是支持中英输入,另一个是语音文本双输入。

要做到这两点,分别需要在架构和训练数据上做一些调整。

架构上,LLaSM将当前的语音识别模型和大语言模型做了个整合。

LLaSM由三个部分构成,分别包括自动语音识别模型Whisper、模态适配器和大模型LLaMA。

在这个过程中,Whisper负责接收原始语音输入并输出语音特征的向量表示。模态适配器的作用是对齐语音和文本嵌入。而LLaMA则负责理解语音和文本输入的指令,并生成回复

国内推出全新语音对话大模型:李开复领衔,零一万物参与,支持中英双语和多模态,开源并可商用图片

模型的训练分为两个阶段。第一阶段是训练模态适配器,此时编码器和大模型被冻结,让模型学习语音和文本的对齐。第二阶段是冻结编码器,训练模态适配器和大模型,以提升模型的多模态对话能力

训练数据上,研究人员整理出了一个包含19.9万个对话和50.8万个语音-文本样本的数据集LLaSM-Audio-Instructions。

在50.8万个语音-文本样本中,有8万个是中文语音样本,而42.8万个是英文语音样本

研究人员主要基于WizardLM、ShareGPT和GPT-4-LLM等数据集,通过文本转语音技术,给这些数据集生成语音包,同时过滤掉无效对话。

国内推出全新语音对话大模型:李开复领衔,零一万物参与,支持中英双语和多模态,开源并可商用图片

这也是目前最大的中英文语音文本指令遵循数据集,不过目前还在整理中,据研究人员表示,整理完后会进行开源。

然而,目前还没有对比该论文与其他语音模型或文本模型的输出效果

作者介绍

这篇论文的作者来自LinkSoul.AI、北京大学和零一万物

共同一作Yu Shu和Siwei Dong均来自LinkSoul.AI,此前曾经在北京智源人工智能研究院工作。

LinkSoul.AI是一家AI初创公司,之前推出过首个开源Llama 2的中文语言大模型。

国内推出全新语音对话大模型:李开复领衔,零一万物参与,支持中英双语和多模态,开源并可商用图片

作为李开复旗下的大模型公司,零一万物也在这次研究中有所贡献。作者Wenhao Huang的Hugging Face主页显示,他毕业于复旦大学。

国内推出全新语音对话大模型:李开复领衔,零一万物参与,支持中英双语和多模态,开源并可商用图片

论文地址:
https://www.php.cn/link/47c917b09f2bc64b2916c0824c715923

Demo地址:
https://www.php.cn/link/bcd0049c35799cdf57d06eaf2eb3cff6

相关专题

更多
人工智能在生活中的应用
人工智能在生活中的应用

人工智能在生活中的应用有语音助手、无人驾驶、金融服务、医疗诊断、智能家居、智能推荐、自然语言处理和游戏设计等。本专题为大家提供人工智能相关的文章、下载、课程内容,供大家免费下载体验。

431

2023.08.17

人工智能的基本概念是什么
人工智能的基本概念是什么

人工智能的英文缩写为AI,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

308

2024.01.09

人工智能不能取代人类的原因是什么
人工智能不能取代人类的原因是什么

人工智能不能取代人类的原因包括情感与意识、创造力与想象力、伦理与道德、社会交往与沟通能力、灵活性与适应性、持续学习和自我提升等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

632

2024.09.10

Python 人工智能
Python 人工智能

本专题聚焦 Python 在人工智能与机器学习领域的核心应用,系统讲解数据预处理、特征工程、监督与无监督学习、模型训练与评估、超参数调优等关键知识。通过实战案例(如房价预测、图像分类、文本情感分析),帮助学习者全面掌握 Python 机器学习模型的构建与实战能力。

34

2025.10.21

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2057

2024.08.16

c++ 根号
c++ 根号

本专题整合了c++根号相关教程,阅读专题下面的文章了解更多详细内容。

17

2026.01.23

c++空格相关教程合集
c++空格相关教程合集

本专题整合了c++空格相关教程,阅读专题下面的文章了解更多详细内容。

22

2026.01.23

yy漫画官方登录入口地址合集
yy漫画官方登录入口地址合集

本专题整合了yy漫画入口相关合集,阅读专题下面的文章了解更多详细内容。

91

2026.01.23

漫蛙最新入口地址汇总2026
漫蛙最新入口地址汇总2026

本专题整合了漫蛙最新入口地址大全,阅读专题下面的文章了解更多详细内容。

124

2026.01.23

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Django 教程
Django 教程

共28课时 | 3.5万人学习

Go 教程
Go 教程

共32课时 | 4.1万人学习

TypeScript 教程
TypeScript 教程

共19课时 | 2.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号