OpenAI 曝光 Bidi 1 全双工语音模型:支持边说边听双向并发 丨日报

图片


开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@鲍勃


01 有话题的技术

1、OpenAI 曝光 Bidi 1 全双工语音模型:支持边说边听双向并发

OpenAI 正在测试其下一代音频模型 Bidi 1。该模型采用双向音频架构,允许 ChatGPT 在说话的同时保持听觉与理解能力,解决了当前语音模式在处理用户打断、语速暂停及实时任务切换时的延迟与中断痛点。

  • 双向流式音频架构:Bidi 1 支持「边说边听」,模型在输出语音的同时持续接收并解析输入音频,无需等待一方发言完毕,实现了全双工交互

  • 自然微反馈与停顿识别:在用户语速放慢或短暂暂停时,模型会发出「OK」等轻微语气词进行自然确认而不会错误截断用户的连续发言。

  • 句中即时任务切换:支持在发言中途直接插入全新指令(例如在计数过程中被打断并要求倒序计数),模型能够无缝切换并立即执行新任务,无需重新开始对话。

  • 模型选择器与界面变更:Bidi 1 已集成在设置菜单的模型选择器中,与标准和高级选项并列,选中激活后交互界面的语音气泡将变为黄色。


来源:

https://www.testingcatalog.com/openai-prepares-bidirectional-voice-mode-for-rollout-on-chatgpt/


( @testingcatalog@X)


2、小米开源全屋智能方案 Miloco 2.0:基于 MiMo 大模型与 OpenClaw,支持多模态感知与主动智能

小米正式发布并开源全屋智能 AI 方案 Miloco 2.0。该方案重构为 OpenClaw 智能体插件,以米家摄像头的画面与声音为多模态感知源,依托自研 MiMo 大模型进行主动决策与全屋设备联动,实现了从「条件触发」向「主动智能」的架构升级。


  • 双模型协同感知与决策:感知端调用自研 MiMo-v2.5 多模态模型进行音视频事件分析,智能体决策端调用 MiMo-v2.5-pro 进行复杂家庭任务的规划与执行。

  • 四大主动智能模块集成:内置通用常识(危险隐患分级预警)、身份识别(人脸与体态融合)、家庭记忆(基于长期习惯的智能体决策参考)和家庭任务(长周期复杂任务拆解与自主执行)四大核心能力。

  • 硬件指标与跨平台兼容:系统推荐配置为内存  4GB,存储  256GB(推荐 Mac mini 级别硬件)。支持 macOS 和 Linux,在 Windows WSL 环境下运行需配置镜像网络模式并开放 Hyper-V 防火墙以接收摄像头 UDP 局域网流。


https://github.com/XiaoMi/xiaomi-miloco/blob/main/README.zh.md


( @GitHub)


3、高德开源 GrowLoop:基于双循环启发式学习与元认知反思,构建对话真人感动态评测 Benchmark

图片


高德行中智能部团队推出开源评测框架 GrowLoop,旨在解决开放域及情感陪伴对话等无标准答案场景下的「真人感」评测难题。该框架利用大模型的元认知反思能力将人类的隐性知识外化为结构化细则,实现了评测标准与测试题目的双循环协同演化,在主观评测一致性指标上取得了显著突破


  • 共识与分歧双轨评测机制:针对人工打分一致率仅 51.1% 的主观痛点,将测试集拆分为共识区(要求模型绝对拟合人类一致意见)与分歧区(不强求拟合单一分布,AI 判断言之有理即可),从而规避了传统奖励模型在陪伴场景下因过度追求详尽、公式化表达而导致的负相关问题(如部分开源奖励模型在陪伴场景下与人相关性达 -0.50)。

  • 基于元认知反思的启发式学习:参考 TextGrad 优化思想,通过精心设计的工作流激活大模型的元认知能力。大模型通过自主运行「打分-比对-反思-修订」循环,自动将人类难以言明的隐性判断外化为结构化的审查规则(如推演长期后果、建立价值优先级等),实现评测指标的自主泛化与收敛。

  • 标准与题目的双循环协进化:利用收敛后的评分细则指导 AI 自动生成 500 条多场景新题,通过分布离散度、模型区分度等 5 道门槛进行筛选;随后抽样部分新题进行人工标注并作为新种子输入,驱动评测标准与题目库轮流迭代升级。

  • 严格评测一致性达 0.78:在包含 132 条题目、355 对配对判断的测试中,GrowLoop 在最严格的三选一匹配指标上取得 0.78 的成绩,显著优于第二名 ICAI 的 0.58;在 1000 次自助采样测试中,对不同能力档位模型(如 Claude、Qwen 等)的排序区分度达到 100%。


论文:

https://arxiv.org/pdf/2605.28882

Github: 

https://github.com/AMAPVOICE/GrowLoop

(@高德技术)


02 有亮点的产品

1、Meta 发布起售价 299 美元的新款智能眼镜,扎克伯格持续推进可穿戴设备布局

图片


Meta 昨天与 EssilorLuxottica 合作推出新款 Meta Glasses,起售价 299 美元,较公司第二代入门款 Meta Ray-Ban 智能眼镜至少便宜 80 美元。。该系列基于 Meta 现有 AI 眼镜技术打造,首发提供 26 种款式,覆盖不同颜色、镜片和镜框组合,并支持配近视等处方镜片。


  • Meta Adventurer 采用矩形设计,提供标准和大号尺寸;

  • Meta Fury 主打更醒目的粗框造型;

  • Meta Glasses by Kylie 则为与 Kylie Jenner 合作设计的细长椭圆框型。


功能方面,Meta Glasses 配备相机、开放式扬声器、多麦克风阵列和专用操作按钮,支持调用 Meta AI、拍摄照片和视频、接打电话、播放音乐和语音控制等功能;续航超过 8 小时,配套折叠充电盒可额外提供最高 40 小时电量。


Meta 高管表示,轻量化智能眼镜只是迈向更高级产品的一步,未来产品将把显示屏集成到镜片中,并具备更强的计算能力。随着竞争加剧以及消费者对增强现实设备兴趣升温,Meta 正积极向大众市场推广智能眼镜。


(@APPSO、@极客公园)


2、字节新一代豆包手机供应链信息曝光,发布时间或延迟

6 月 23 日,据悉,由中兴通讯与字节共同推进的新一代豆包 AI 手机或较既定发布时间有所延长,究其原因与备案认证流程有关。据悉,与普通手机不同,这款产品需要同时闯过两道关口:一是网信部门负责的大模型备案;二是工信部主管的手机终端入网认证


知情人士透露,早在 2026 年 1 月,字节跳动便已启动新一代豆包 AI 手机的备案认证流程,但「第一次申请没通过,随后进行了第二次申请,产品至今仍处于备案状态。」该人士表示,若后续审批顺利,新机最快也要等到今年 7 至 8 月才能面世,「反正是备案通过才能上市」。


与此同时,获悉该手机相关供应链信息,其中屏幕供应商已由前一代的深天马,更换为京东方;电池方面,德赛电池成为新一代豆包手机的供应商,采用 ATL 电芯;代工方面,新一代豆包手机由 A 股上市公司福日电子旗下中诺通讯承担


(@极客公园)


03 有态度的观点


1、美图 CPO 陈剑毅:AI 工具是次要的,用户需求才是主要的

图片


围绕 AI 产品方法论,美图 CPO 陈剑毅(花名小白)在与 APPSO 对话中表示,相比模型参数、AI 智能体数量或工具使用能力,美图更看重对用户需求和垂直场景的理解。


陈剑毅提到,美图做 AI 产品的核心不是追求通用能力,而是围绕设计、口播、AI 短剧、MV 等具体内容格式做深度定制。


他认为,通用 AI 工具可以覆盖大量场景,但垂直产品的价值在于理解特定内容的关键构成元素,并把用户真正需要的流程做短、做准。


用户需求是主要的,AI 工具是次要的。现在很多人把次要的当成主要了。


在人才判断上,他也表示会谨慎看待只迷恋 AI 工具、却离用户很远的产品经理,因为这类人容易「误把用 AI 来产出当成了创造价值」。


在他看来,AI 能力可以学习,但真正决定产品成败的,仍是能否识别真实需求、理解用户场景,并把技术转化为用户愿意使用的产品。


(@APPSO)



04 Real-Time AI Demo

1、实时 AI 世界杯解说员

开发者@ming_calligraphy@Reddit:

我想看看,AI 评论员是不是真的能用于实时直播,而不只是在视频播完后配个旁白。于是,我搭了一个简单的测试系统:通过 Agora RTC 和 RTMP 协议接收视频流并在浏览器中实时播放,同时让 AI 实时观看画面并进行解说。附上的视频就是这次测试的录像。


说实话,效果比我预期的要好。它听起来很像真正的实时解说,但实际上只是对画面动态做出的即时反应,并没有真正理解比赛的实质。


我发出来主要是好奇,想看看大家觉得它的完成度怎么样。如果有感兴趣的人,我可能会把代码整理一下开源出来。


https://www.reddit.com/r/OpenAI/comments/1udx8it/i_tried_making_an_ai_world_cup_commentator_it/


(@ming_calligraphy@Reddit)



05 社区黑板报

招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)


1、活动推荐|SOLID 2026 倒计时 5 天,AI BUILDER 深圳集合狂欢!

智能硬件 Demo,10+AI 产品展示。


大咖主题分享与对谈,参会者自由交流。


找灵感 找队友 找机会,接触投资人与市场渠道。


AI Agent 最新实践,Builder 参会社群。


就在 6 月 28 日 深圳 AI BUILDER 创客节!


报名方式:点击详情链接扫描二维码即可报名


详情请见链接:

SOLID 2026 倒计时 5 天,AI BUILDER 深圳集合狂欢!


图片

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

作者提示: 个人观点,仅供参考

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    关键词
    // 相关帖子
    Coming soon...
    • 0
    OpenAI 曝光 Bidi 1 全双工语音模型:支持边说边听双向并发 丨日报RTRTE_Dev_Comm