儿童无屏幕语音硬件 Bunny 融资百万美元；腾讯会议推出 AI 托管：先行听会、代听多会、全程记录丨日报

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@Jerry fong，@鲍勃

01有话题的技术

1、OpenAI Evals 升级：原生支持音频输入输出

OpenAI 推出了 Evals API 对音频输入的直接支持，允许开发者无需先转录，即可评估模型处理音频交互的能力。这项更新显著简化了诸如客服等涉及语音沟通的场景的评估流程，并通过音频模型评分，更准确地反映模型性能。

关键亮点

原生音频评估: Evals API 现在可以直接接收和处理音频输入，如 WAV、MP3、FLAC 等格式，无需预先转录为文本。
端到端音频工作流: 支持对音频输入生成音频输出的模型进行评估，完美模拟真实世界的语音交互场景。
灵活的评分机制: 提供音频模型评分（score_model）概和文本字符串比对评分（string_check）两种评分器，支持直接评估音频或其文本转录。
简化数据准备: 提供audio_to_base64 工具函数，便于将 Hugging Face 数据集中的音频格式转换为 API 所需的 base64 编码。
gpt-audio模型支持: 评估过程中可指定的gpt-audio等支持音频处理的模型进行采样和评分。

2、Google Meet 推出实时语音翻译：AI 赋能超低延迟，重塑跨语言沟通

Google Meet 联合 DeepMind 和 Research 团队，利用 AI 技术推出了实时的语音翻译功能。这项功能能够将用户讲话的内容近乎实时地翻译成对方的语言，并以接近原声的音色播放，极大地降低了跨语言沟通的延迟，使得跨国界、跨时区的交流更加顺畅。

关键亮点

「一键式」模型实现超低延迟： 摆脱传统「转录-翻译-合成」的多步骤流程，通过「大型模型」（而非传统 LLM）实现音频直接输出音频的「一键式」翻译，将延迟从 10-20 秒大幅缩短至 2-3 秒，几乎达到人类同声传译的流畅度。
保留说话者音色： 翻译后的语音能够保留原说话者的独特音色，增强沟通的自然度和个性化体验，避免了以往通用 AI 声音的生硬感。
赋能自然流畅对话： 2-3 秒的翻译延迟被认为是实现自然对话的「甜蜜点」，使跨语言通话中的同步对话成为可能，极大提升了会议效率和用户体验。
跨团队协作的成果： 该功能由 Google Meet 团队与 Google DeepMind 紧密合作开发，同时整合了来自 Pixel、Cloud、Chrome 等多个 Google 部门的工程师力量。
首批支持语言： 目前已支持意大利语、葡萄牙语、德语和法语，未来将持续扩展。

02有亮点的产品

1、获百万美元融资，Outlier Humans 推出儿童无屏幕语音设备 Bunny

初创公司 Outlier Humans 近日发布了一款专为 3-8 岁儿童设计的创新语音对话设备——Bunny。该产品主打无屏幕或少屏幕的互动体验，旨在通过日常对话和活动建议，激发孩子的好奇心与创造力。

Bunny 的核心功能包括：

激发好奇：以对讲机形式，引导儿童通过语音进行探索和学习，摆脱对屏幕内容的依赖。

赋能家长：父母可以接收孩子与设备对话的日志和摘要，并获得个性化的亲子活动建议，如在谈论鸟类后推荐参观鸟类保护区。
安全可控：内置适龄内容过滤器，并允许父母自定义屏蔽主题。同时设有「静默时段」和每日使用额度，确保健康使用。
价值对齐：支持父母根据家庭的育儿理念与文化背景进行定制，例如调整讲故事的侧重点（如强调「耐心」），或让孩子成为故事的主角，实现与家庭价值观的无缝对齐。

产品目前处于 Waitlist 阶段，尚未全面发售。

详细链接：

https://www.outlierhumans.com/product

( @Outlier Humans)

2、腾讯会议推出「AI 托管」功能：先行听会、代听多会、全程记录

腾讯会议近日联合「元宝」正式上线「AI 托管」功能，旨在通过人工智能技术全面解决用户在会议中遇到的迟到、多会撞车及临时离场等痛点。该功能让「元宝」智能体作为用户的「会议哨兵」，先行听会、代听多会、全程记录，并智能生成会议纪要和提供会后内容拓展，致力于打造高效、无缝的会议体验。

腾讯会议「AI 托管」功能已正式上线，用户可通过会邀页面或会议列表直接启用。

关键亮点

「人未到，耳先至」： 用户在入会前点击「AI 托管」，「元宝」智能体将先行替用户听会，生成智能提炼的 AI 纪要，确保用户入会后能迅速了解会议开头内容，无缝衔接议题。
「多会撞车」智能代听： 当用户日程冲突需同时参与多个会议时，可将会议设置为「托管中」，「元宝」将真实接入并实时记录多个会议的完整内容与关键要点，会后自动推送 AI 纪要，支持浏览小结或详细内容。
「会中突发离场」全程守护： 会议中途若需临时离场，用户可一键开启「AI 托管」，「元宝」将继续坚守岗位，完整记录会议内容，待用户返回后通过 AI 纪要快速了解错过的信息，流畅投入讨论。
会后拓展与辅助决策： 基于 AI 纪要，「元宝」支持用户进行深入提问、梳理逻辑、解答疑问，甚至生成思维导图，辅助用户沉淀会议成果并推进决策。

3、美团「小美」生活智能体：一键打理日常，开启极简生活新范式

美团近日正式上线其首个生活类 AI 「智能体」——「小美」，目前为内测阶段。该「智能体」深度融合了美团的本地生活服务生态与 AI 能力，旨在通过自然语言交互，为用户提供点餐、购物、日程管理等一站式智能助理服务，预示着 AI 「智能体」在本地生活服务领域的巨大潜力与市场竞争的白热化。

目前，「小美」正处于内测阶段，需邀请码方可体验。已支持外卖点餐、美团闪购、酒店预订及 AI 定时任务等核心功能。打车、电影票、机票、火车票等票务预订功能正在开发中，预计未来将逐步上线。

核心亮点：

一站式智能生活服务： 「小美」通过自然语言交互，可实现外卖点餐、美团闪购、跨城送礼、团购推荐、酒店预订及最受瞩目的 AI 定时任务设置等功能，极大简化用户日常操作。
深度集成美团生态： 无缝打通美团外卖、闪购等核心业务，实现「智能体」内闭环操作，用户可直接在「小美」界面完成点单、支付等全流程，无需跳转，流程高度丝滑。
个性化记忆与偏好： 具备强大的记忆能力，能记住用户过往订单、收货地址及个人口味，提供定制化服务，并支持向地址簿中的亲友跨城市点餐送礼。
创新「AI 定时任务」： 用户可设定循环性的自动下单指令，如「周一到周四早上 10 点点一杯星巴克冰美式送到公司」，甚至「每月自动购买生活用品」，彻底解放用户重复性操作。
多元生活顾问角色： 除了基础服务，「小美」还能根据用户需求扮演健康顾问、吃喝玩乐顾问、出游顾问等，提供个性化推荐和规划。

（@数字生命卡兹克）

03有态度的观点

1、DeepMind CEO：现在的模型有博士级水平？无稽之谈

近日，Google DeepMind CEO Demis Hassabis 在参加「All In 峰会」时指出，时常能听到一些竞争对手称，如今我们所拥有的这些现代系统具备博士级智能。「但我认为这种说法是无稽之谈，因为根本不具备博士级智能。」

据 OfficeChai 指出，OpenAI CEO Sam Altman 此前曾声称 GPT-5 模型拥有「博士级」能力，甚至在发布会上表示「这就像是在和一个专家交谈，一个真正的博士级别的专家，在任何一个领域。」

而在 Hassabis 看来，现阶段的 AI 系统在综合能力上与博士级水平相差甚远。其表示：「事实上，众所周知，与如今的聊天机器人互动时，只要你以特定方式提问，就会发现它们甚至会在高中数学和简单计数问题上犯低级错误。对于真正的通用人工智能（AGI）系统而言，这种情况是不应该出现的。」

同时 Hassabis 也预测，要研发出能够实现博士级综合能力的人工智能系统，人类可能还需要 5 到 10 年的时间。

Hassabis 还提到，当前的模型系统尚不具备人类这样的学习能力，他认为，现阶段另一个缺失的关键能力是持续学习能力 —— 即能够在线向系统传授新知识，或通过某种方式调整其行为模式的能力。

其表示，目前这些核心能力中的大部分仍未实现。「或许通过规模扩张人类能达成目标，但如果让我打赌的话，我认为要实现这一目标，可能还需要一两项关键突破，而这些突破有望在未来五年左右出现。」

(@ APPSO)

素材来源官方媒体/网络新闻