儿童无屏幕语音硬件 Bunny 融资百万美元;腾讯会议推出 AI 托管:先行听会、代听多会、全程记录丨日报

图片


开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@Jerry fong,@鲍勃

01有话题的技术

1、OpenAI Evals 升级:原生支持音频输入输出
图片

OpenAI 推出了 Evals API 对音频输入的直接支持,允许开发者无需先转录,即可评估模型处理音频交互的能力。这项更新显著简化了诸如客服等涉及语音沟通的场景的评估流程,并通过音频模型评分,更准确地反映模型性能。

关键亮点

  • 原生音频评估: Evals API 现在可以直接接收和处理音频输入,如 WAV、MP3、FLAC 等格式,无需预先转录为文本。

  • 端到端音频工作流: 支持对音频输入生成音频输出的模型进行评估,完美模拟真实世界的语音交互场景。

  • 灵活的评分机制: 提供音频模型评分score_model)概和文本字符串比对评分string_check两种评分器,支持直接评估音频或其文本转录。

  • 简化数据准备: 提供audio_to_base64 工具函数,便于将 Hugging Face 数据集中的音频格式转换为 API 所需的 base64 编码。

  • gpt-audio模型支持: 评估过程中可指定的gpt-audio等支持音频处理的模型进行采样和评分。

相关链接:

https://cookbook.openai.com/examples/evaluation/use-cases/evalsapi_audio_inputs

( @OpenAI Evals Cookbook)

2、Google Meet 推出实时语音翻译:AI 赋能超低延迟,重塑跨语言沟通

Google Meet 联合 DeepMind 和 Research 团队,利用 AI 技术推出了实时的语音翻译功能。这项功能能够将用户讲话的内容近乎实时地翻译成对方的语言,并以接近原声的音色播放,极大地降低了跨语言沟通的延迟,使得跨国界、跨时区的交流更加顺畅。

关键亮点

  • 「一键式」模型实现超低延迟: 摆脱传统「转录-翻译-合成」的多步骤流程,通过「大型模型」(而非传统 LLM)实现音频直接输出音频的「一键式」翻译,将延迟从 10-20 秒大幅缩短至 2-3 秒,几乎达到人类同声传译的流畅度。

  • 保留说话者音色: 翻译后的语音能够保留原说话者的独特音色,增强沟通的自然度和个性化体验,避免了以往通用 AI 声音的生硬感。

  • 赋能自然流畅对话: 2-3 秒的翻译延迟被认为是实现自然对话的「甜蜜点」,使跨语言通话中的同步对话成为可能,极大提升了会议效率和用户体验。

  • 跨团队协作的成果: 该功能由 Google Meet 团队与 Google DeepMind 紧密合作开发,同时整合了来自 Pixel、Cloud、Chrome 等多个 Google 部门的工程师力量。

  • 首批支持语言: 目前已支持意大利语、葡萄牙语、德语和法语,未来将持续扩展。

相关链接:

https://blog.google/products/workspace/google-meet-langauge-translation-ai/

( @Google Blog)



02有亮点的产品

1、获百万美元融资,Outlier Humans  推出儿童无屏幕语音设备 Bunny

初创公司 Outlier Humans 近日发布了一款专为 3-8 岁儿童设计的创新语音对话设备——Bunny。该产品主打无屏幕或少屏幕的互动体验,旨在通过日常对话和活动建议,激发孩子的好奇心与创造力。

Bunny 的核心功能包括:

  • 激发好奇:以对讲机形式,引导儿童通过语音进行探索和学习,摆脱对屏幕内容的依赖。


图片

  • 赋能家长:父母可以接收孩子与设备对话的日志和摘要,并获得个性化的亲子活动建议,如在谈论鸟类后推荐参观鸟类保护区。

  • 安全可控:内置适龄内容过滤器,并允许父母自定义屏蔽主题。同时设有「静默时段」和每日使用额度,确保健康使用。

  • 价值对齐:支持父母根据家庭的育儿理念与文化背景进行定制,例如调整讲故事的侧重点(如强调「耐心」),或让孩子成为故事的主角,实现与家庭价值观的无缝对齐。

产品目前处于 Waitlist 阶段,尚未全面发售。

详细链接:

https://www.outlierhumans.com/product

( @Outlier Humans)


2、腾讯会议推出「AI 托管」功能:先行听会、代听多会、全程记录
图片

腾讯会议近日联合「元宝」正式上线「AI 托管」功能,旨在通过人工智能技术全面解决用户在会议中遇到的迟到、多会撞车及临时离场等痛点。该功能让「元宝」智能体作为用户的「会议哨兵」,先行听会、代听多会、全程记录,并智能生成会议纪要和提供会后内容拓展,致力于打造高效、无缝的会议体验。

腾讯会议「AI 托管」功能已正式上线,用户可通过会邀页面或会议列表直接启用。

关键亮点

  • 「人未到,耳先至」: 用户在入会前点击「AI 托管」,「元宝」智能体将先行替用户听会,生成智能提炼的 AI 纪要,确保用户入会后能迅速了解会议开头内容,无缝衔接议题。

  • 「多会撞车」智能代听: 当用户日程冲突需同时参与多个会议时,可将会议设置为「托管中」,「元宝」将真实接入并实时记录多个会议的完整内容与关键要点,会后自动推送 AI 纪要,支持浏览小结或详细内容。

  • 「会中突发离场」全程守护: 会议中途若需临时离场,用户可一键开启「AI 托管」,「元宝」将继续坚守岗位,完整记录会议内容,待用户返回后通过 AI 纪要快速了解错过的信息,流畅投入讨论。

  • 会后拓展与辅助决策: 基于 AI 纪要,「元宝」支持用户进行深入提问、梳理逻辑、解答疑问,甚至生成思维导图,辅助用户沉淀会议成果并推进决策。

相关链接:

https://mp.weixin.qq.com/s/cobZ01s7siWYi3I0QHX29A

(@腾讯会议)

3、美团「小美」生活智能体:一键打理日常,开启极简生活新范式

美团近日正式上线其首个生活类 AI 「智能体」——「小美」,目前为内测阶段。该「智能体」深度融合了美团的本地生活服务生态与 AI 能力,旨在通过自然语言交互,为用户提供点餐、购物、日程管理等一站式智能助理服务,预示着 AI 「智能体」在本地生活服务领域的巨大潜力与市场竞争的白热化。

目前,「小美」正处于内测阶段,需邀请码方可体验。已支持外卖点餐、美团闪购、酒店预订及 AI 定时任务等核心功能。打车、电影票、机票、火车票等票务预订功能正在开发中,预计未来将逐步上线。

核心亮点:

  • 一站式智能生活服务: 「小美」通过自然语言交互,可实现外卖点餐、美团闪购、跨城送礼、团购推荐、酒店预订及最受瞩目的 AI 定时任务设置等功能,极大简化用户日常操作。

  • 深度集成美团生态: 无缝打通美团外卖、闪购等核心业务,实现「智能体」内闭环操作,用户可直接在「小美」界面完成点单、支付等全流程,无需跳转,流程高度丝滑。

  • 个性化记忆与偏好: 具备强大的记忆能力,能记住用户过往订单、收货地址及个人口味,提供定制化服务,并支持向地址簿中的亲友跨城市点餐送礼。

  • 创新「AI 定时任务」: 用户可设定循环性的自动下单指令,如「周一到周四早上 10 点点一杯星巴克冰美式送到公司」,甚至「每月自动购买生活用品」,彻底解放用户重复性操作。

  • 多元生活顾问角色: 除了基础服务,「小美」还能根据用户需求扮演健康顾问、吃喝玩乐顾问、出游顾问等,提供个性化推荐和规划。

(@数字生命卡兹克)



03有态度的观点 

1、DeepMind CEO:现在的模型有博士级水平?无稽之谈

近日,Google DeepMind CEO Demis Hassabis 在参加「All In 峰会」时指出,时常能听到一些竞争对手称,如今我们所拥有的这些现代系统具备博士级智能。「但我认为这种说法是无稽之谈,因为根本不具备博士级智能。」

据 OfficeChai 指出,OpenAI CEO Sam Altman 此前曾声称 GPT-5 模型 拥有「博士级」能力,甚至在发布会上表示「这就像是在和一个专家交谈,一个真正的博士级别的专家,在任何一个领域。」

而在 Hassabis 看来,现阶段的 AI 系统在综合能力上与博士级水平相差甚远。其表示:「事实上,众所周知,与如今的聊天机器人互动时,只要你以特定方式提问,就会发现它们甚至会在高中数学和简单计数问题上犯低级错误。对于真正的通用人工智能(AGI)系统而言,这种情况是不应该出现的。」

同时 Hassabis 也预测,要研发出能够实现博士级综合能力的人工智能系统,人类可能还需要 5 到 10 年的时间。

Hassabis 还提到,当前的模型系统尚不具备人类这样的学习能力,他认为,现阶段另一个缺失的关键能力是持续学习能力 —— 即能够在线向系统传授新知识,或通过某种方式调整其行为模式的能力。

其表示,目前这些核心能力中的大部分仍未实现。「或许通过规模扩张人类能达成目标,但如果让我打赌的话,我认为要实现这一目标,可能还需要一两项关键突破,而这些突破有望在未来五年左右出现。」

(@ APPSO)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

图片

素材来源官方媒体/网络新闻

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    关键词
    // 相关帖子
    Coming soon...
    • 0
    儿童无屏幕语音硬件 Bunny 融资百万美元;腾讯会议推出 AI 托管:先行听会、代听多会、全程记录丨日报RTRTE_Dev_Comm