OpenAI GPT-Realtime 发布:支持 SIP、MCP、异步函数调用和副语言信息捕捉,但依然贵丨日报

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@子禾、@鲍勃

01 有话题的技术

1、OpenAI 发布 GPT-Realtime,AI Agent 进入超逼真对话时代

今天凌晨 1 点,OpenAI 进行了技术直播发布了语音模型 GPT-realtime。

GPT-realtime 是一个专用于语音 AIAgent 的多模态模型,能够生成更加自然流畅的语音,完美模仿人类丰富多样的语调、情感以及语速,支持图像理解并将其与语音或文本对话相结合使用,非常适用于客服、教育、金融、医疗等领域打造语音智能体。

GPT-realtime 还新增了 Marin 与 Cedar 两种极具特色的语音,同时对原有的 8 种语音也进行了全面升级。

与传统纯语音模型不同的是,GPT-realtime 还具备智力、推理和理解能力,例如,能够敏锐捕捉笑声等非语言信号,在句子中间自如地切换语言,并根据场景需求灵活调整语气。

根据评估数据显示,在多种语言环境下,GPT-realtime 对字母数字序列的检测准确率大幅提升,在用于衡量推理能力的 BigBenchAudio 评估中,准确率高达 82.8%成为目前最强智能语音模型。

指令遵循能力的改进也是 GPT-realtime 的一大亮点。在构建语音应用时,开发者可对模型进行一系列指令自定义,包括如何说话、特定场景下该说什么、该做什么以及不该做什么等。

GPT-realtime 针对这一点进行了深度优化,即便是极为细微的指令,也能对其产生显著的引导效果。在衡量指令遵循准确率的 MultiChallenge 音频基准测试中,GPT-realtime 的得分从旧模型的 20.6%提升到 30.5%,进步十分显著。

在函数调用能力方面,GPT - realtime 从调用相关函数、把握调用时机以及选用合适的参数调用函数这三个关键维度进行了全方位优化。在 ComplexFuncBench 测试中,得分从旧模型的 49.7%飙升至 66.5%。

异步函数调用功能也得到了极大改进,长时间运行的函数调用不再会成为会话流程的绊脚石,模型在耐心等待结果的同时,依然能够丝滑进行对话,并且这一强大功能无需开发者更新代码,开箱即用。

支持图像输入是 GPT–realtime 特色功能之一,开发者可在 Realtime API 会话中,可以自由地将图像、照片、截图与音频或文本一并添加。模型由此具备了基于用户实际所见内容展开对话的能力,用户能够提出诸如 「你看到了什么?」 或 「读取这张截图中的文字」 等多样化问题。

值得一提的是,该系统并非将图像视为实时视频流,而是巧妙地将其类比为在对话中插入的一张图片,开发者可通过应用自主决定向模型分享哪些图像以及分享的时机,从而牢牢掌握模型看到的内容与响应时机,实现更加个性化、精准化的交互体验。

与 GPT - realtime 模型同步上线的,还有 Realtime API 的一系列全新功能。从今天开始,在 Realtime API 会话中,开发者只需在会话配置中轻松传入远程 MCP 服务器的 URL,即可快速启用 MCP 支持。

连接建立后,API 会自动承担起工具调用的重任,无需开发者再手动搭建繁琐的集成环境。这种配置方式为扩展智能体功能提供了极大的便利,开发者只需将会话指向不同的 MCP 服务器,相应的工具便能即刻投入使用,大大提高了开发效率。

此外,Realtime API 还新增了多项功能,旨在进一步提升其集成便捷性与生产使用灵活性。其中,会话初始协议支持使得 Realtime API 能够直接与公共电话网络、专用分组交换机系统、桌面电话及其他 SIP 终端建立连接,极大地拓展了应用的连接范围。

而可复用提示功能则允许开发者像在 Responses API 中一样,保存并在多个 Realtime API 会话中重复使用提示,这些提示涵盖了开发者消息、工具、变量以及用户/助理示例消息等丰富信息,为开发工作带来了极大的便利,有效减少了重复性劳动,提高了开发效率。

在安全与隐私保障方面,Realtime API 内置了多层严密的防护与缓解措施,全力防止滥用情况的发生。通过采用主动分类器,在会话过程中实时监测对话内容,一旦检测到对话违反有害内容准则,会立即终止相关会话,从源头上保障了使用环境的安全与健康。

开发者还可借助 Agents SDK 轻松添加自定义安全防护措施,实现更加个性化、精细化的安全管理。在使用政策上,明确禁止将服务输出用于垃圾邮件、欺诈或其他有害用途,并要求开发者在上下文未明确表明的情况下,必须向终端用户清晰告知其正在与人工智能进行交互。此外,Realtime API 采用预设语音,有效防止了恶意人员冒充他人的风险。

在定价与可用性方面,自发布之日起,所有开发者均可自由使用正式开放的 Realtime API 与全新的 GPT-realtime 模型。与之前的 gpt-4o-realtime-preview 相比,GPT-realtime 的价格降低了 20%,具体为音频输入 token 单价 32 美元/百万个(缓存输入 token 单价 0.40 美元/百万个),音频输出 token 单价 64 美元/百万个。

此外,OpenAI 还为对话上下文新增了精细控制功能,开发者可灵活设置智能 token 限制,一次性截断多轮对话内容,从而大幅降低长会话的成本。

相关链接:https://platform.openai.com/docs/guides/realtime(@AIGC 开放社区)

2、Microsoft AI 语音生成模型 MAI-Voice-1,一秒内在单一 GPU 上生成一分钟音频

Microsoft AI 公布两款完全自研的模型:语音生成模型 MAI-Voice-1 与基础大模型 MAI-1-preview。

MAI-Voice-1:自然、高效的语音生成模型

MAI-Voice-1 是 MAI 首个高度富有表现力且自然的语音生成模型。该模型的一大亮点在于其卓越的效率,能在不足一秒的时间内在一块 GPU 上生成长达一分钟的音频,使其成为目前市面上最高效的语音系统之一。

  • 应用场景 : MAI-Voice-1 已在 Copilot DailyPodcasts 功能中投入使用,并新增了 Copilot Labs 体验,供用户尝试富有表现力的语音和讲故事演示。

  • 技术优势: 该模型在高保真音频生成方面表现出色,支持单人和多人发声场景,为未来 AI 伴侣的语音交互奠定了基础。用户可期待通过简单的指令创作「选择你自己的冒险」故事或定制化冥想等内容。

MAI-1-preview:首个端到端训练的基础模型

MAI-1-preview 是 MAI 首个端到端训练的混合专家(mixture-of-experts)模型,经过约 15,000 块 NVIDIA H100 GPU 的预训练和后训练。

  • 目标用户: 该模型专为寻求强大 AI 能力的消费者设计,擅长遵循指令并为日常查询提供有益响应。

  • 测试与发布: MAI-1-preview 已在 LMArena(一个流行的社区模型评估平台)启动公开测试。未来几周内,该模型将逐步应用于 Copilot 的部分文本用例,以收集用户反馈并持续优化。

  • API 访问: 除了 LMArena,MAI 还向受信任的测试人员开放了 API 访问申请,以收集模型性能和改进方向的早期反馈。

相关链接:https://microsoft.ai/news/two-new-in-house-models/(@橘鸭 Juya )

3、OmniHuman-1.5:为数字虚拟人注入「认知」能力,实现富有情感和语境的动态生成

字节跳动旗下 ByteDance Intelligent Creation 团队发布 OmniHuman-1.5,通过认知模拟为数字形象赋予「主动思维」。该框架突破简单唇形同步与重复手势,让角色根据音频语义产生真实情感变化,并匹配符合语义的肢体动作,呈现仿佛自主意志驱动的表现。

  • 在节奏表演方面,仅凭单张人像与一首歌曲即可生成充满乐感的数字歌手;Reasoning 模块在保持口型同步的同时捕捉音乐情绪,支持从抒情独唱到热烈演唱等多种风格。

  • 情感表演方面,无需文字提示即可解析音频中的情绪潜台词,产生从爆发式愤怒到深情告白的全幅戏剧表演。

  • 框架支持文本引导的多模态动画:可接受文字提示精准控制对象生成、镜头运动及具体动作,并保持与音频的完全同步。示例包括手持镜头下的孤独氛围、环绕特写、角色伸手戳镜头等复杂镜头调度。

  • 多人物场景中,系统可在单帧内将多条音轨路由至对应角色,实现动态群像对话与合奏表演。此外,模型对输入对象具备极高鲁棒性,可同步生成真人、动物、拟人化角色、风格化卡通等多种形象的高质量视频。

相关链接:https://omnihuman-lab.github.io/v1_5/(@橘鸭 Juya )

4、OSUM-EChat:开源端到端共情语音对话模型,用「理解」驱动共情交互

近日,西北工业大学音频语音与语言处理研究组(ASLP@NPU)正式发布了开源端到端共情语音对话系统 OSUM-EChat。该模型旨在解决当前共情语音对话领域面临的数据依赖、副语言线索提取不足以及缺乏统一评估标准等核心挑战。OSUM-EChat 不仅能增强语音交互中的共情能力,还集成了多种语音功能,为学术界和开发者社区提供了可复用、可扩展的技术范式。

共情语音对话模型与仅基于语义的语音对话模型的对比

该模型是一项基于先前 OSUM 语音理解大模型研究的创新成果。它通过独特的「理解-生成-共情」三阶段训练策略,以及「语义-副语言双重思维机制」,使得模型能够像人类一样,先理解用户的语义内容,再推断出年龄、性别、情绪等副语言信息,最终生成更具同理心的回应。这种理解驱动的方式,让模型在资源有限的环境下也能高效工作。

OSUM-EChat 采用了原生多模态架构,将语音编码与解码整合到单一框架中,从而最大程度地保留了关键的副语言信息。除了模型代码和权重外,研究团队还开源了专门为共情语音对话场景构建的 EChat-200K 数据集和 EChat-eval 评估基准,解决了该领域数据稀缺和评估标准不统一的痛点。

目前,所有代码、模型权重和在线体验网页已全部开源。该模型不仅擅长共情对话,还集成了语音理解、语音合成、语音到语音对话等多种基础功能,可作为通用的语音交互基座模型使用,为后续研究和应用开发提供了便利。

测试链接:https://www.osum-echat.npu-aslp.org/(@音频语音与语言处理研究组)

02 有亮点的产品

1、腾讯混元开源视频音效模型

腾讯混元宣布开源端到端视频音效生成模型 HunyuanVideo-Foley,号称「只需输入视频和文字,就能为视频匹配电影级音效」。据介绍,HunyuanVideo-Foley 拥有以下亮点:

  • 泛化能力好:可适配人物、动物、自然景观、卡通动画等各类视频,生成与画面精准匹配的音频。

  • 多模态语义均衡响应:得益于创新的结构设计,HunyuanVideo-Foley 既能理解视频画面,又能结合文字描述,自动平衡不同信息源,生成层次丰富的复合音效,不会因为过度依赖于文本语义而只生成部分音效。

  • 专业级音频保真度:团队引入表征对齐(REPA)损失函数,利用预训练音频特征为建模过程提供语义与声学指导,显著提升了音频生成质量和稳定性。此外,得益于强大的音频 VAE 和高质量数据,HunyuanVideo-Foley 极大程度抑制了底噪和不一致的音效瑕疵的出现,保证了专业级的音频保真度。在多个权威评测基准上,HunyuanVideo-Foley 的性能表现全面领先,在音频保真度、视觉语义对齐、时间对齐和分布匹配等维度均达到了新的 SOTA 水平,超越了所有开源方案。即日起,用户可在 Github、HuggingFace 下载 HunyuanVideo-Foley,也可以在混元官网直接体验。

相关链接:https://szczesnys.github.io/hunyuanvideo-foley/(@APPSO )

03 有态度的观点

1、OpenAI Agent 团队:未来属于单一的、无所不知的超级 Agent

OpenAI Agent 团队的核心成员近日透露,他们正在构建的并非是一系列独立的 AI 工具,而是一个单一的、无所不知的「超级 Agent」。这一愿景源于一个核心信念:所有技能之间都存在正向迁移,一个 Agent 在不同任务中习得的能力可以相互促进。

为了实现这一目标,团队将多种工具(如浏览器、终端和 API 调用)集成到一个共享的环境中,并使用强化学习进行训练。这种方法让 Agent 能自主学习如何高效地组合工具来完成长达数十分钟的复杂任务,而无需人工预设规则。

团队也承认,这一模式面临安全和稳定性挑战,但他们相信,通过持续迭代和强大的安全机制,这种能够理解和执行复杂意图的单一 Agent,将开创全新的计算范式,并解锁前所未有的应用前景。(@Z Potentials )

04 社区黑板报

招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)

1、来自 Looki 的投稿 |「人生回看器」团队招人啦!

Looki 是一家成立于 2024 年的初创公司,致力于通过 AI 技术提升人们日常生活的感知与记录体验。

设计的首款多模态 AI 硬件 Looki L1 已经正式发售,并收到了来自全球用户的热情关注与支持。未来希望引入更多志同道合的伙伴,共同通过软硬件设计激发 AI 服务于人的无限潜能。

>>详细岗位介绍 (@Looki)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    关键词
    // 相关帖子
    Coming soon...
    • 0
    OpenAI GPT-Realtime 发布:支持 SIP、MCP、异步函数调用和副语言信息捕捉,但依然贵丨日报RTRTE_Dev_Comm