
国内AI领域最具影响力的学者之一——复旦大学计算机学院邱锡鹏教授及其团队学生近期推出了全新语音大模型 MOSS-Speech,宣称实现了真正意义上的语音到语音(Speech-to-Speech)交互。
据项目官方介绍,该模型标志着中国在语音人工智能领域迈入“端到端语音交互”的新纪元。与传统依赖“语音识别→文本处理→语音合成”三段式流程不同,MOSS-Speech 能直接从输入语音理解语义,并以语音形式生成回应,全程无需转化为文本中转。这一架构使得系统在回应过程中可保留并传递语调、情感、笑声等非语言信息,显著提升对话的自然度与人性化体验。

MOSS-Speech 的核心技术亮点包括:
- 原生语音到语音建模:彻底摆脱对文本解码的依赖。
- 分层解耦结构设计:在已有文本大模型基础上扩展专用语音模块。
- 冻结式训练策略:保持原始语言模型能力的同时融合语音理解与生成功能。
- 领先性能表现:在多项语音问答和语音交互任务中达到当前最优水平(SOTA)。
在权威语音到语音转换评测中,MOSS-Speech 取得了业界领先的指标成绩。
- 预训练阶段模型评估结果

- 指令微调后模型测试表现

了解更多详情请访问以下资源
- 视频演示地址:https://www.php.cn/link/9983a45ec612b9372871ef63ee241b31
- 在线交互体验:https://www.php.cn/link/57a9d589fa03ef4795f38f84306486c4
- GitHub 项目主页:https://www.php.cn/link/596f8ff563daa92917b1ca6544055638
- 技术文档下载:https://www.php.cn/link/596f8ff563daa92917b1ca6544055638/blob/main/papers/MOSS-Speech Technical Report.pdf
源码获取链接:立即下载










