阶跃星辰正式宣布,其自主研发的语音大模型 step-audio-r1.1 在全球权威评测榜单 artificial analysis speech reasoning 中荣登榜首,位列世界第一。

据阶跃星辰官方介绍,Artificial Analysis Speech Reasoning 是当前业内最具公信力的第三方评测基准之一,专为评估“原生语音模型”(Native Audio Models)而设。该榜单聚焦模型对原始音频信号的直接理解与深层逻辑推理能力,核心指标涵盖任务准确率、首包响应延迟等关键维度。正如大语言模型依赖强推理实现高阶智能,语音模型同样需突破基础识别,迈向真正具备思考能力的“听懂—理解—推理”闭环。
Step-Audio-R1.1 以高达 96.4% 的综合准确率,大幅领先 Grok、Gemini、GPT-Realtime 等国际主流语音/多模态模型,创下该榜单历史最高分纪录。在推理精度与实时性双重约束下,其整体性能表现全面超越现有同类语音模型。

Step-Audio-R1 是阶跃星辰推出的全球首个开源原生语音推理模型,无需文本中转或额外延迟,即可实现端到端语音理解与即时思考,真正做到“耳听即思”,贴近人类对话认知机制。
主要技术特性包括:
- 深度语音语义推理能力
- 毫秒级实时响应性能
- 面向音频任务可扩展的思维链(CoT)架构
Step-Audio-R1.1 作为 R1 的增强迭代版本,在保持低延迟优势的同时,显著提升了复杂语音场景下的多步推理能力与上下文建模深度。完整版实时语音 API 计划于 2 月正式开放;当前已上线的 chat 模式已集成 R1.1 核心引擎,支持“边思考、边生成”的流式语音交互体验。
模型权重已同步发布至 HuggingFace:https://www.php.cn/link/d40031c3a5236b7bf6999aa45a42a001
在线体验入口:https://www.php.cn/link/649927d37f4afecb602b470b820de6d5
GitHub 开源仓库:https://www.php.cn/link/4c5b119e80db91b776bec5a1ec4b302d
魔搭 ModelScope 页面:https://www.php.cn/link/2c67bd5efc291f9ee3200673addcb2fd
源码镜像地址:点击下载










