Cnbeta 08月29日
OpenAI发布GPT-realtime模型,提升语音交互体验
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI推出了其最新的语音转语音模型GPT-realtime,旨在为开发者提供更低延迟、更高准确率的语音交互体验。新模型在理解复杂指令、调用工具以及生成自然语音方面均有显著提升,并在多项音频基准测试中刷新了记录。此次更新还新增了两种新声音,并优化了现有声音,同时API也支持远程MCP服务器、图像输入及电话呼叫等功能。OpenAI还宣布下调了Realtime API的价格,使其成为构建语音优先应用的更具吸引力的选择。

🚀 **GPT-realtime模型性能飞跃**:OpenAI发布的新一代GPT-realtime模型在理解系统消息和开发者提示方面表现更佳,能够更好地遵循复杂指令,以更低的错误率调用工具,并生成更自然、更具表现力的语音。在Big Bench Audio、MultiChallenge Audio和ComplexFuncBench等关键音频基准测试中,GPT-realtime的准确率相较于上一代模型有了显著提升,分别达到了82.8%、30.5%和66.5%。

🗣️ **新增与优化声音库**:此次更新除了模型本身的进步,还为Realtime API新增了Marin和Cedar两种新声音,使得API提供的声音选择更加丰富。此外,现有的六种声音也得到了更新,听起来更加自然和逼真,为用户提供更多样化和高质量的语音体验。

🔧 **API功能全面升级**:OpenAI还宣布了Realtime API的多项重要更新,包括对远程MCP服务器的支持,允许图像作为输入,以及通过SIP协议进行电话呼叫的功能。开发者现在还可以保存和重复使用提示,进一步提高了API的灵活性和易用性。

💰 **价格下调,性价比提升**:为了让更多开发者能够利用其先进的语音技术,OpenAI宣布降低Realtime API的价格。与之前的预览版本相比,新的GPT-realtime API价格降低了20%,每百万个音频输入词元仅需32美元(缓存输入词元0.40美元),每百万个音频输出词元为64美元,这使得构建下一代语音优先体验的成本效益更高。

早在 2024 年 10 月,OpenAI就发布了Realtime API,使开发者能够在其应用中构建低延迟、多模式的体验。自那时起,成千上万的开发者已经使用 Realtime API 在其应用和服务中构建了自然的语音转语音体验。今天,OpenAI 发布了其最先进的语音转语音模型 GPT-realtime,该模型能够更好地遵循复杂指令,以更低的错误率调用工具,并生成更自然、更具表现力的语音。

OpenAI 声称,这款新模型能够更好地解读系统消息和开发者提示。Realtime API 去年发布时,自带 6 种不同的声音,后来又添加了两种。今天,OpenAI 宣布推出两种新声音:Marin 和 Cedar。除了新增声音外,现有的 6 种声音也进行了更新,使其听起来更加自然。

OpenAI 提到,这个新的 GPT-realtime 模型可以更好地理解音频,并且准确率更高,在基准测试中的表现也更好:

除了新模型和语音之外,OpenAI 还宣布了 API 的多项更新。实时 API 现在支持远程 MCP 服务器、图像输入以及通过会话发起协议 (SIP) 进行电话呼叫。最后,开发人员现在可以保存和重复使用提示。

尽管进行了这些改进,OpenAI 还是降低了 Realtime API 的价格。与 GPT-4o-realtime-preview 相比,新的 GPT-realtime API 便宜了 20%,每 100 万个音频输入词元 32 美元(缓存输入词元 0.40 美元),每 100 万个音频输出词元 64 美元。

凭借这些有意义的性能改进和令人惊讶的价格下降,OpenAI 将 gpt-realtime 定位为构建下一代语音优先体验的开发人员的有力选择。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI GPT-realtime 语音转语音 AI Realtime API 语音技术
相关文章