0

0

实测昆仑万维对话AI「Skyo」,会读诗、知晓雷军摆拍

霞舞

霞舞

发布时间:2024-11-20 15:34:29

|

1199人浏览过

|

来源于机器之心

转载

算起来,距离 5 月 14 日 OpenAI 发布 GPT-4o 高级语音模式已经过去了半年时间。在这期间,AI 实时语音对话已经成为了有能力大厂秀肌肉、拼实力的新战场。

不过,由于语音大模型在训练、部署、交互等层面相较于语言、图像大模型更难,因此这个赛道的玩家并不多。可以看到,目前唯一有能力抗衡 GPT-4o 的恐怕只有谷歌的 Gemini Live 了。

如今,这对「冤家」都在忙着扩大用户生态。OpenAI 向各类付费用户开放了 GPT-4o 语音功能,并与苹果合作接入到了 Siri 中。谷歌先是允许所有安卓用户访问 Gemini Live 语音功能,并于近日支持 iOS 用户与该语音助手交流。

与此同时,国内一些厂商陆续推出了类似的实时语音对话大模型及应用,比如智谱、科大讯飞等,填补了一些空白。如今,这个赛道又迎来了一个有实力的新玩家 —— 它就是昆仑万维开发的 Skyo 实时语音对话助手

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

实测昆仑万维对话AI「Skyo」,会读诗、知晓雷军摆拍
声音听起来还不错吧!Skyo 内置了非常清亮、爽朗的男声。

Skyo 基于背后的天工大模型 4.0 4o 版(Skywork 4o)打造。从名称上看,Skyo 中的「o」同样代表了 omni 的意思,并落在语音对话场景,直接对标了 GPT-4o。从定位和功能上看,作为一个智能语音互动产品,Skyo 具备了快速响应、实时打断、情感化反应、真实内容互动和个性化声音定制等多样化的功能。

可以说,用户想要在 AI 语音对话中体验的场景和功能,Skyo 基本上都能 hold,还针对当前 AI 语音助手存在的一些痛点进行了优化。

实时对话 AI
一要准、二要快

与传统语音助手的主要区别在于,基于大模型开发的 AI 实时语音对话助手能够应对更复杂的语境、执行更个性化的任务,并开始从「工具」的属性过渡到「人类伴侣」。

自 GPT-4o 之后,语音交互场景的 AI 具备了前所未有的感知能力,在更智能化、更多面手之外,不仅响应延迟明显降低了,还能准确读懂用户的情感语调,如兴奋、高兴或悲伤,并以逼真的方式模仿和回应。

不过,随着更多用户体验到 GPT-4o 语音功能,它的一些缺点陆续显露了出来,比如不擅长识别自然停顿、无法准确响应要求的话题等。
实测昆仑万维对话AI「Skyo」,会读诗、知晓雷军摆拍
实测昆仑万维对话AI「Skyo」,会读诗、知晓雷军摆拍
同样地,此后出现的一系列对标 GPT-4o 的产品,如谷歌 Gemini Live、法国开源 AI 研究实验室 Kyutai 的 Moshi 等,虽然都宣称要打造自然流畅的 AI 对话,但从用户反馈来看,依然存在着一些直接影响对话体验的短板,比如可用性差、中断频繁和延迟严重等。
实测昆仑万维对话AI「Skyo」,会读诗、知晓雷军摆拍
实测昆仑万维对话AI「Skyo」,会读诗、知晓雷军摆拍
当然,面对 AI 实时语音对话助手的常见通病,Skyo 也需要尽力去克服。究竟效果怎么样呢?我们还是得看它的现场表现。

一手实测
会念诗、还拿捏住了拟人化

在与 Skyo 来了场面对面的交谈后,我们收获了一些小惊喜。

首先,我们来咨询 Skyo 一些健康常识问题,他回答的比较合理、全面,也有侧重性。当中,我们在他没有回答完上个问题的时候,就开始了下个问题,他衔接得挺好。这说明了 Skyo 能够轻松应对用户打断场景,并在两个问题之间顺滑地切换。

我们还发现,Skyo 的回答中出现了类似于人类日常交谈中常用到的「呃」,这代表了他是在思考后才回答的。语气也不像机器人那样机械、僵硬、冷冰冰,会出现「哎呀」等感叹词,拟人化属性很强实测昆仑万维对话AI「Skyo」,会读诗、知晓雷军摆拍
其次,情感化反应已经成为现阶段语音交互 AI 追求的主要目标之一,在对话中要有能力识别出用户的情绪波动并给予准确的反馈。

Skyo 在这方面做得也不错,他能够理解用户情绪,并使对话更具人性化。当我们跟他说一些烦心事时,他会安慰我们,情绪价值给得很足,还给出了一些建议。实测昆仑万维对话AI「Skyo」,会读诗、知晓雷军摆拍
我们接着让 Skyo 讲个小笑话,结果「冷翻了全场」。

既然他不擅长讲笑话,那就换个最近网络上的热门话题,问他知不知道小米雷军在汽车工厂摆拍,看起来他对这件趣事挺门清的。实测昆仑万维对话AI「Skyo」,会读诗、知晓雷军摆拍
再让 Skyo 对最近李子柒的回归做一个评价,从结果来看,他的语言组织和总结能力还是不错的。如果放在现实世界中,他写作文应该是把好手。

这同时也意味着 Skyo 具备了一定的实时资讯获知和知识拓展能力,借助外部知识库来强化自己。实测昆仑万维对话AI「Skyo」,会读诗、知晓雷军摆拍
最后,让 Skyo 切换成英姿飒爽的女声,并让她念了一首诗。她第一时间选择了李白的《静夜思》,看样子是有点浪漫基因在身上的。实测昆仑万维对话AI「Skyo」,会读诗、知晓雷军摆拍再以男声朗诵徐志摩的《再别康桥》,感情充沛,节奏把握得也很好。 实测昆仑万维对话AI「Skyo」,会读诗、知晓雷军摆拍
这样一个男女声自由切换、会安慰人、会念诗、还能知晓天下事的国产 AI 聊天搭子,如何炼成的呢?

以上 Skyo 各项能力的实现要归功于其采用了先进的端到端实时语音建模技术,其中框架链路自研并保持业界领先。这样一来,在高精度理解用户语音输入内容(即听得准)的基础上,做出比较快速的响应(即答得快),响应时间一般在 1 秒左右。

另外,得益于昆仑万维在自研语音技术框架、大模型训练以及数据积累上的厚积薄发,Skyo 还能够在高强度对话中保持稳定性和流畅性,并在情绪表达、实时交互等方面更加契合用户需求。

不过,我们也得承认,现阶段 Skyo 的功能并不完善,在回复的过程中偶尔也会出现声音的扭曲失真,但这都是进化路上所要经历的。

未来,Skyo 将继续修炼自己,并发力多语言支持、主动交流、音乐生成等更丰富的功能。我们可以狠狠期待一波了。

当 Scaling Law 放缓
多模态 AI 应用势在必行

最近,Scaling Law「撞墙」的消息开始在 AI 社区传播,领域顶级玩家 OpenAI、谷歌和 Anthropic 均被曝出在开发更先进模型时遇到了不小的困难,比如 OpenAI 内部代号「Orion」的新模型没有达到预期训练效果。

虽然之后这一观点遭到了一些人的驳斥,但不可否认的是,随着互联网高质量数据逐渐匮乏、主流大模型训练没有跳出 Transformer 架构等因素的影响,大模型开发速度的放缓似乎是必然的。
实测昆仑万维对话AI「Skyo」,会读诗、知晓雷军摆拍
                             奥特曼:「墙」不存在。

相反,基于大模型的 AI 应用正在走向百花齐放,比如搜索引擎、音乐生成、语音交互、智能体,可以拓展生成式 AI 的落地场景并重塑人机交互范式,带来多样化 AI 体验和生产力提升。因此,在保证基座模型性能「不掉队」的前提下,形成完整的应用矩阵,对于想要持续站稳脚跟的厂商来说尤为重要。

在这方面,昆仑万维可以说布局较早且合理。一方面,自研天工系列基座大模型已经发展到 4.0 版本,性能处于全球领先水平。另一方面,构建了清晰、多元的 AI 业务矩阵,在天工 AI 平台集成了 AI 搜索、AI 文档-音视频分析、AI 写作、AI 音乐、AI 图片生成等主流 AIGC 应用。模型与应用两手抓,两手都要硬。
 
此次,Skyo 实时语音对话助手是昆仑万维抢占 AI 语音交互应用市场、布局多模态的又一举措。与不久之前上线的天工 AI 高级搜索功能一样,也将成为构筑全栈式大模型能力堆栈的重要一环。

我们了解到,Skyo 实时语音对话助手将于近期上线天工 App,并接入天工搜索以获取更准确的实时资讯。可以预见,此举将进一步丰富天工平台的功能,让用户打开手机就能体验到 AI 原生实时对话的乐趣。

回望年初,昆仑万维提出了「实现通用人工智能,让每个人更好地塑造和表达自我」的全新使命。为此,该公司以天工 AI 平台为主阵地,对其上的 AI 应用不断进行功能上的迭代更新,深拓大模型能力释放出口,将新世代的人机交互贯穿文本、图像、语音等更全模态。

未来,昆仑万维还将继续发力实时图像与视频理解等领域,并形成开箱即用的 AI 应用,从而在创新技术进步、全面满足用户 AIGC 需求的过程中加快迈向 AGI 的步伐。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
堆和栈的区别
堆和栈的区别

堆和栈的区别:1、内存分配方式不同;2、大小不同;3、数据访问方式不同;4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容,供大家免费下载体验。

446

2023.07.18

堆和栈区别
堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

605

2023.08.10

堆和栈的区别
堆和栈的区别

堆和栈的区别:1、内存分配方式不同;2、大小不同;3、数据访问方式不同;4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容,供大家免费下载体验。

446

2023.07.18

堆和栈区别
堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

605

2023.08.10

什么是搜索引擎
什么是搜索引擎

搜索引擎是一种互联网工具,用于帮助用户在网上查找信息。搜索引擎的目标是提供最准确、最有价值的搜索结果,使用户能够快速找到所需的信息。本专题为大家提供搜索引擎相关的各种文章、以及下载和课程。

493

2023.08.02

有哪些目录搜索引擎
有哪些目录搜索引擎

目录搜索引擎有Google、Bing、Yahoo、Baidu、DuckDuckGo等。想了解更多目录搜索引擎的相关内容,可以阅读本专题下面的文章。

6534

2023.11.06

搜索引擎营销的主要模式
搜索引擎营销的主要模式

搜索引擎营销的主要模式包括:1. 竞价排名(ppc);2. 搜索引擎优化(seo);3. 本地搜索营销;4. 购物广告;5. 视频广告;6. 展示广告;7. 社交媒体营销;8. 移动广告。想了解更多搜索引擎营销的相关内容,可以阅读本专题下面的文章。

473

2024.05.20

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

25

2026.03.13

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

44

2026.03.12

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
550W粉丝大佬手把手从零学JavaScript
550W粉丝大佬手把手从零学JavaScript

共1课时 | 0.4万人学习

极客学院Android开发视频教程
极客学院Android开发视频教程

共345课时 | 96.2万人学习

Dart Flutter2入门实战视频教程
Dart Flutter2入门实战视频教程

共47课时 | 6.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号