0

0

刚刚,OpenAI 一口气发布三个新模型!还为此做了一个新网站

花韻仙語

花韻仙語

发布时间:2025-03-23 12:36:29

|

316人浏览过

|

来源于ZAKER

转载

就在刚刚,openai 宣布在其 api 中推出全新一代音频模型,包括语音转文本和文本转语音功能,让开发者能够轻松构建强大的语音 agent。

新产品的核心亮点概述如下

gpt-4o-transcribe ( 语音转文本 ) :单词错误率 ( WER ) 显著降低,在多个基准测试中优于现有 Whisper 模型

gpt-4o-mini-transcribe ( 语音转文本 ) :gpt-4o-transcribe 的精简版本,速度更快、效率更高

gpt-4o-mini-tts ( 文本转语音 ) :首次支持「可引导性」 ( steerability ) ,开发者不仅能指定「说什么」,还能控制「如何说」

据 OpenAI 介绍,新推出的 gpt-4o-transcribe 采用多样化、高质量音频数据集进行了长时间的训练,能更好地捕获语音细微差别,减少误识别,大幅提升转录可靠性。

刚刚,OpenAI 一口气发布三个新模型!还为此做了一个新网站

因此,gpt-4o-transcribe 更适用于处理口音多样、环境嘈杂、语速变化等挑战场景,比如客户呼叫中心、会议记录转录等领域。

gpt-4o-mini-transcribe 则基于 GPT-4o-mini 架构,通过知识蒸馏技术从大模型转移能力,虽然 WER(越低越好)稍高于完整版模型,但仍旧优于原有 Whisper 模型,更适合资源有限但仍需高质量语音识别的应用场景。

这两款模型在 FLEURS 多语言基准测试中的表现超越了现有的 Whisper v2 和 v3 模型,尤其在英语、西班牙语等多种语言上表现突出。

刚刚,OpenAI 一口气发布三个新模型!还为此做了一个新网站

刚刚,OpenAI 一口气发布三个新模型!还为此做了一个新网站

定价方面,GPT-4o-transcribe 与之前的 Whisper 模型价格相同,每分钟 0.006 美元,而 GPT-4o-mini-transcribe 则是前者的一半,每分钟 0.003 美元。

刚刚,OpenAI 一口气发布三个新模型!还为此做了一个新网站

与此同时,OpenAI 还发布了新的 gpt-4o-mini-tts 文本转语音模型。首次让开发者不仅能指定「说什么」,还能控制「如何说」。

具体而言,开发者可以预设多种语音风格,如「平静」、「冲浪者」、「专业的」、「中世纪骑士」等,它还能根据指令调整语音风格,如「像富有同情心的客服 Agent 一样说话」,定价亲民,仅为每分钟 0.015 美元。

安全不能马虎,OpenAI 表示,gpt-4o-mini-tts 将接受持续监控,以保证其输出与预设的合成风格保持一致。

这些技术进步的背后源于 OpenAI 的多项创新:

新音频模型建立在 GPT-4o 和 GPT-4o-mini 架构之上,采用真实音频数据集进行预训练

应用 self-play 方法创建的蒸馏数据集的知识蒸馏方法,实现从大模型到小模型的知识转移

在语音转文本技术中融入强化学习 ( RL ) ,显著提升转录精度并减少「幻觉」现象。

在凌晨的直播中,OpenAI 向我们展示了一款 AI 时尚顾问 Agent 的应用案例。

当用户询问「我最近的订单是什么?」时,系统流畅回应:用户于 2 月 9 日订购的 Patagonia 短裤已发货,并在后续提问中准确提供了订单号「A.D. 507」。

刚刚,OpenAI 一口气发布三个新模型!还为此做了一个新网站

值得一提的是,OpenAI 演示人员还介绍了两种构建语音 Agent 技术路径,第一种「语音到语音模型」采用端到端的直接处理方式。

系统可直接接收用户语音输入并生成语音回复,无需中间转换步骤。这种方式处理速度更快,已在 ChatGPT 的高级语音模式和实时 API 服务中得到应用,非常适合对响应速度要求极高的场景。

第二种「链式方法」则是本次发布会的重点。

Remover
Remover

几秒钟去除图中不需要的元素

下载

它将整个处理流程分解为三个独立环节:首先使用语音转文本模型将用户语音转为文字,然后由大型语言模型 ( LLM ) 处理这些文本内容并生成回应文本,最后通过文本转语音模型将回应转为自然语音输出。

这种方法的优势在于模块化设计,各组件可独立优化;处理结果更稳定,因为文本处理技术通常比直接音频处理更成熟;同时开发门槛更低,开发者可基于现有文本系统快速添加语音功能。

OpenAI 还为这些语音交互系统提供了多项增强功能:

支持语音流式处理,实现连续音频输入和输出

内置噪音消除功能,提升语音清晰度。

语义语音活动检测,能够识别用户何时完成发言

提供追踪 UI 工具,方便开发者调试语音代理

目前,这些全新音频模型已向全球开发者开放。

刚刚,OpenAI 一口气发布三个新模型!还为此做了一个新网站

你还可以在 http://OpenAI.fm 上体验并制作 gpt-4o-mini-tts 的相关音频,这个演示网站可谓是功能齐全,左下角是官方的预设模板,主要包括人设、语气、方言、发音等设置。

刚刚,OpenAI 一口气发布三个新模型!还为此做了一个新网站

我们也实测了一段八百标兵奔北坡的绕口令,emmm,中文效果马马虎虎。至于英文效果,听它念着诗歌,倒是挺有真人那味了,但无论是与此前走红的 Hume AI 亦或者 Sesame 相比,「肉耳可听」地还差点火候。

此外,OpenAI 推出了与 Agents SDK 的集成,进一步简化开发流程。

值得一提的是,OpenAI 还举办了一个广播比赛。用户可以在 http://OpenAI.fm 制作音频,接着使用 OpenAI.fm 上的「分享」按钮生成链接,然后在 X 平台分享该链接。

最具创意的前三名将各获一台限量版 Teenage Engineering OB-4。音频时长建议控制在 30 秒左右,可在语音、表达、发音或剧本语调变化上尽情发挥创意。

刚刚,OpenAI 一口气发布三个新模型!还为此做了一个新网站

实际上,今年 AI 的风向也在悄然发生变化,除了依旧强调智商,还多出一股趋势,强调情感。

GPT-4.5、Grok 3 的卖点是情商,写作更有创意,回应更个性化,而冷冰冰的机器人(智元机器人),也强调更拟人,主打一个情绪价值。

由于直接触及人类最本能的沟通方式,语音领域在这方面的发力则更加显著。

最近在硅谷走红的 Sesame AI 能够实时感知用户情绪,并生成情感共鸣的回应,迅速俘获了一大批用户的心。图灵奖得主 Yann lecun 最近也在强调,未来的 AI 需要拥有情感。

而无论是 OpenAI 今天发布的全新语音模型、还是即将发布的 Meta Llama 4 都有意往原生语音对话靠拢,试图通过更自然的情感交互拉近与用户的距离,靠「人味」圈粉。

AI 需要有人味吗?长期以来。聊天机器人通常被定义为没有情感的工具,它们也会在对话中提醒你,它是一个没有灵魂的模型。然而,我们却往往能从中解读出情绪价值,甚至不自觉地与之建立情感联结。

或许人类天生渴望被理解、被陪伴,哪怕这种理解来自一台机器。

相关专题

更多
ChatGPT注册
ChatGPT注册

ChatGPT注册方法:1、访问OpenAI的官方网站,进入注册页面;2、完成注册后收到一份邮件,打开后点击验证账号;3、选择一个适合您需求的订阅计划;4、获得访问ChatGPT的权限即可。

532

2023.09.12

国内免费ChatGPT大全
国内免费ChatGPT大全

ChatGPT是一种基于深度学习技术的自然语言处理模型,由OpenAI开发。它是GPT的一个变体,专门设计用于生成上下文相关的文本回复。ChatGPT被训练成一个聊天机器人,可以与用户进行对话交互。更多关于ChatGPT的文章详情请查看本专题,希望对大家能有所帮助。

574

2023.10.25

手机安装chatgpt的方法
手机安装chatgpt的方法

手机安装chatgpt的方法:1、在ChatGTP官网或手机商店上下载ChatGTP软件;2、打开后在设置界面中,选择语言为中文;3、在对局界面中,选择人机对局并设置中文相谱;4、开始后在聊天窗口中输入指令,即可与软件进行交互。想了解更多chatgpt的相关内容,可以阅读本专题下面的文章。

2820

2024.03.05

chatgpt国内可不可以使用
chatgpt国内可不可以使用

chatgpt在国内可以使用,但不能注册,港澳也不行,用户想要注册的话,可以使用国外的手机号进行注册,注意注册过程中要将网络环境切换成国外ip。想了解更多chatgpt的相关内容,可以阅读本专题下面的文章。

1007

2024.03.05

http500解决方法
http500解决方法

http500解决方法有检查服务器日志、检查代码错误、检查服务器配置、检查文件和目录权限、检查资源不足、更新软件版本、重启服务器或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

359

2023.11.09

http请求415错误怎么解决
http请求415错误怎么解决

解决方法:1、检查请求头中的Content-Type;2、检查请求体中的数据格式;3、使用适当的编码格式;4、使用适当的请求方法;5、检查服务器端的支持情况。更多http请求415错误怎么解决的相关内容,可以阅读下面的文章。

410

2023.11.14

HTTP 503错误解决方法
HTTP 503错误解决方法

HTTP 503错误表示服务器暂时无法处理请求。想了解更多http错误代码的相关内容,可以阅读本专题下面的文章。

1879

2024.03.12

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1988

2024.08.16

高德地图升级方法汇总
高德地图升级方法汇总

本专题整合了高德地图升级相关教程,阅读专题下面的文章了解更多详细内容。

72

2026.01.16

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Node.js 教程
Node.js 教程

共57课时 | 8.8万人学习

CSS3 教程
CSS3 教程

共18课时 | 4.7万人学习

Rust 教程
Rust 教程

共28课时 | 4.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号