36kr-科技 09月17日
OpenAI发布GPT-Realtime,实时语音交互新纪元
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI正式发布了其最新的语音模型GPT-Realtime及Realtime API,旨在显著降低延迟、提升语音质量,并为开发者提供强大的生产级工具。新模型集成了端到端的语音处理能力,无需拆分语音转文本和文本转语音,极大地缩短了响应时间,保留了语音表达的细微之处。GPT-Realtime在语音生成、理解能力(包括非语言信号和多语言切换)、函数调用以及异步函数调用等方面均有显著提升,准确率大幅提高。Realtime API也得到全面升级,支持MCP服务器、图像输入、SIP电话呼叫等,并加强了安全措施,为构建更智能、更流畅的AI语音智能体提供了坚实基础。

🚀 **革命性的端到端语音处理**:GPT-Realtime与Realtime API的结合,实现了单一系统内的端到端语音处理,消除了语音转文本与文本转语音模型分离的需要,从而显著降低了延迟,确保了实时语音交互的流畅性,即使微小的延迟也可能影响对话体验。

🗣️ **显著提升的语音质量与理解力**:GPT-Realtime能够生成更自然、语速语调更逼真的语音,并稳定执行语气指令。模型在理解非语言信号、实现多语言切换、准确处理跨语言字母数字序列方面表现出色,并在Big Bench Audio等基准测试中取得显著的准确率提升。

⚙️ **增强的函数调用与生产级API**:新模型在识别、调用函数及传递参数方面能力更强,准确率大幅提升。Realtime API支持MCP服务器、图像输入、SIP电话呼叫,并提供欧盟数据存储支持,使其更符合生产环境的需求,简化了开发者的集成操作。

🔒 **强化安全与合规性**:Realtime API内置分类器以中止有害对话,开发者也可通过Agents SDK添加特定领域安全约束。预设声音有助于降低冒充风险,确保AI语音智能体的安全部署和使用。

OpenAI 正式发布了 gpt-realtime,这是一款代表当前 OpenAI 最新研发成果的语音对语音模型,同时 Realtime API 也全面开放。此次更新旨在降低延迟、提升语音质量,并为开发者提供更强大的工具,例如支持 MCP 服务器、图像输入以及基于 SIP 的电话呼叫,从而打造真正可投入生产环境的 AI 语音智能体。

Realtime API 与 gpt-realtime 的结合,能够在单一系统内完成端到端语音处理,而无需再将语音转文本与文本转语音模型分开串联。这种架构显著缩短了响应时间,并能保留语音表达中的细微差别,这对于实时语音交互至关重要,因为哪怕几百毫秒的延迟都可能破坏对话的流畅性。

gpt-realtime 经过训练,可以生成更高质量的语音,语速与语调更加自然,同时在语气风格的指令执行上表现稳定,例如“以同理心语气说话”或“使用专业语气”。此次还新增了两个合成声音 Cedar 和 Marin,并对现有声音进行了更新,使之更加逼真。

gpt-realtime 在理解能力方面也有显著进步。模型能够识别非语言信号,在一句话中实现多语言切换,并且对跨语言的字母数字序列(如电话号码、车辆识别码等)处理更加准确,支持西班牙语、中文、日语和法语等多种语言。内部测试结果显示,gpt-realtime 在 Big Bench Audio 上的准确率达到 82.8%,相比上一代模型的 65.6% 有显著提升。在遵循指令方面,MultiChallenge 音频基准测试的得分也从 20.6% 提升至 30.5%。

函数调用能力同样得到增强。新模型在识别相关函数、在合适时机调用并传递正确参数方面表现更佳。在 ComplexFuncBench 上,准确率从 49.7% 提升至 66.5%。此外,系统还新增了 异步函数调用 功能,使语音智能体在等待结果期间能够继续对话,这一特性在客户服务和交易类场景中具有重要应用价值。

Realtime API 也迎来全面升级,更符合生产级需求。开发者现在可以将远程 MCP 服务器直接接入会话,避免手动集成的繁琐操作。API 还支持图像输入,使应用能够基于视觉内容(如截图或照片)进行对话。SIP 支持则让语音智能体能无缝接入现有电话系统,包括 PBX 和桌面电话。可复用提示功能简化了会话管理,而全面的欧盟数据存储支持则满足欧洲部署中的合规要求。

根据发布说明,早期企业合作伙伴已在接近生产环境的场景中测试这些功能。Zillow 已启动语音交互式房产搜索的试点项目,而 T-Mobile 则探索在客户服务中应用实时响应的场景。两家公司都强调,AI 语音智能体正推动交互方式从传统的脚本化自动化,向更灵活、更具领域专长的方向转变。

OpenAI 还进一步强化了部署安全措施。Realtime API 内置分类器,可以中止有害对话,开发者也能通过 Agents SDK 添加特定领域的安全约束。此外,Realtime API 的预设声音有助于降低冒充风险。

目前,gpt-realtime 模型与 Realtime API 已全面开放,所有开发者均可使用。开发者可查阅 Realtime API 文档 与 提示指南 快速上手,并在 Playground 中体验全新的 gpt-realtime 演示版本。

原文链接:https://www.infoq.com/news/2025/09/openai-gpt-realtime/

本文来自微信公众号“InfoQ”,作者:Hien Luu ,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GPT-Realtime OpenAI Realtime API 语音AI AI语音智能体 低延迟 语音交互
相关文章