OpenAI推出gpt-realtime语音对话模型:支持情感感知、多语言无缝切换

diaokedeshiguang2025-08-29 10:28:52IT之家

 8 月 29 日消息,OpenAI 已将其“Realtime API”正式投入生产环境,将其移出测试阶段(Beta)。

据了解,这款 API 主要面向企业与开发者群体,旨在助力他们开发适用于实际场景的语音助手,覆盖客户支持、教育、个人效率提升等领域。其核心组件“gpt-realtime”模型采用端到端 Speech-to-Speech 架构,可直接生成并处理语音,省去了常规的文本转换步骤。据 OpenAI 介绍,相比前代版本,该模型响应速度更快、语音更自然,对复杂指令的处理能力也更强。

OpenAI 表示,目前 gpt-realtime 模型能够捕捉笑声等非语言信号,支持对话过程中中途切换语言,还可调整语音语气 —— 例如实现“带法国口音的友好语调”或“语速较快的专业语调”。此外,该模型新增了“Cedar”和“Marin”两种语音,并对现有的 8 种语音效果进行了优化。

在性能基准测试中,gpt-realtime 模型表现显著提升:在 Big Bench Audio 基准测试中准确率从 65.6% 升至 82.8%,在 MultiChallenge 基准测试中从 20.6% 升至 30.5%,在 ComplexFuncBench 基准测试中则从 49.7% 提升至 66.5%。

此次 API 升级优化了工具集成流程。OpenAI 称,该模型能更精准地选择适用工具、在恰当时机触发工具,并正确配置工具参数,大幅提升了函数调用的可靠性。开发者可通过会话初始协议(SIP)与远程媒体控制协议(MCP)服务器,连接外部工具与服务。同时,可复用的提示词功能支持保存不同使用场景下的配置与工具设置,进一步提升开发效率。

该 API 现已支持图像输入功能。用户在对话过程中可发送截图或照片,模型能参考图像内容进行交互 —— 例如读取图像中的文字,或回答与图像内容相关的问题。开发者可自主控制模型能够获取的图像范围。

此外,API 新增了两项实用功能:开发者可设置 token 使用上限,并对多轮对话内容进行精简处理。这两项功能有助于在较长会话中更好地控制成本。价格方面,gpt-realtime 模型的使用成本降低 20%,当前定价为:音频输入 token 每百万个 32 美元(IT之家注:现汇率约合 229 元人民币),音频输出 token 每百万个 64 美元(现汇率约合 457.9 元人民币),缓存输入 token 每百万个 0.40 美元(现汇率约合 2.9 元人民币)。

OpenAI 表示,该 API 具备检测问题内容的能力,若对话违反平台政策,可自动终止会话。不过,从语言模型的安全发展历程来看,这不应是唯一的安全保障手段,开发者仍需自行添加专属安全要求。

针对欧盟用户,该 API 提供了数据本地化存储选项,并为企业用户制定了特殊隐私规则,以符合欧盟地区的数据保护法规。(远洋)

阿尔特曼:ChatGPT AI聊天机器人周活跃用户超3亿,日均消息发送量突破10亿条

12月5日消息,在纽约时报本周三举办的DealBook峰会上,OpenAI公司首席执行官山姆・阿尔特曼(SamAltman)发布喜讯,ChatGPT聊天机器人周活跃用户超过3亿,日均消息发送量突破10亿条。阿尔特曼在活动中表示,ChatGPT...

马斯克:不和中国对手「卷」,只有 AI 才能救特斯拉

作者|曹思颀尽管一直强调自己不止是一家汽车生产厂商,但是这一次,特斯拉好像真的要变玩法了。当地时间4月5日,路透以「独家新闻」的字样,报道特斯拉已经在今年2月底的一次内部会议中,「放弃(scrap)」了计划中...

OpenAI计划在德国开设办事处,扩大其在欧盟的影响力

2月8日消息,OpenAI正在加速其国际化布局,此次将目光投向了德国。据本周五发布的一份新闻稿显示,ChatGPT的开发公司OpenAI计划在未来数月内在德国慕尼黑开设办事处。OpenAI首席执行官萨姆・阿尔特曼在一份声明中表...

英伟达联手谷歌,加速开发量子计算处理器

11月19日消息,英伟达与谷歌QuantumAI宣布达成合作,以NVIDIACUDA-Q平台助力谷歌研究人员开发量子计算机的海量数字模型,以解决设计难题。根据双方声明,谷歌QuantumAI部门将借助英伟达Eos超级计算机及混合量子-经典...

挖生态墙角,搞AI创新:国产旗舰和iPhone拼了

十月的手机行业,热闹程度丝毫不亚于有苹果发布会的九月。vivo、OPPO、小米、iQOO、荣耀、一加等手机品牌接连发布新品,并在影像、屏幕、性能上继续升级。而苹果2024财年第四财季(即截至9月28日的第三季度)财报显...

TAG:OpenAI AI
上一篇:阿里AI再加码:消息称夸克研发全新产品“造点”App,融合创作与内容互动表达
下一篇:微软推出其首款自研AI模型:MAI-Voice-1 秒级生成音频