Sesame 正式推出 iOS 应用，将在 2027 年推出智能眼镜丨日报

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@koki、@鲍勃

01 有话题的技术

1、UBase 收购 ReturnZero：内化实时语音识别与说话人日志技术，将于 7 月发布全套 AICC 智能体

韩国 BPO 服务商 UBase 宣布收购语音 AI 初创公司 ReturnZero，旨在将其核心实时语音技术引入自研技术栈。此举完成了从底层语音识别到上层 NLP 逻辑的垂直整合，UBase 计划于 7 月推出能够自主完成意图识别、任务处理及结案的全流程客服智能体。

核心语音技术内化：集成 ReturnZero 的实时语音转文本、高级说话人日志（Speaker Diarization）以及基于高性能后端服务器架构的大规模语音并发处理能力，目前 ReturnZero 拥有 30 项相关专利。
全链路自动化架构：通过整合此前收购的 Wigo（AI 方案）、Nexus Community 与 Hanil Networks（呼叫中心系统）以及 CenterLink（应用开发）的技术资产，UBase 构建了从底层通信协议到上层业务逻辑的闭环 AICC 方案。
智能体自主闭环能力：7 月发布的「全套客服 AI 智能体」目标是脱离人工干预，独立完成从识别客户意图、执行业务咨询、后台任务处理到工单关闭的端到端流程。
五大专项工程项目：启动包括主动外呼（Outbound）AI 智能体开发、STT/TTS 引擎性能优化、支持全球化扩张的多语言版本、针对中小企业的云端订阅服务以及 AICC 集成化产品包。

(@finance.biggo)

2、ElevenLabs 发布 Music v2：支持单曲内跨曲风切换与局部重绘，主打版权合规商业化

ElevenLabs 推出新一代音乐生成模型 Music v2，核心突破在于实现了单曲内的实时风格切换与模块化编排。该模型基于授权数据训练，支持用户对音轨特定片段进行重绘（In-painting），旨在为专业营销和创作团队提供可控的商业级音频生成工具。

跨风格平滑切换：支持在同一音轨中实现极端风格转换（如从歌剧瞬间切换为重金属或快速说唱），同时保持人声与构图的连贯性，并支持集成非音乐类音效。
局部重绘（Selective Regeneration）：用户可锁定音轨的其他部分，仅选定特定片段通过 Prompt 进行重新生成，无需重新创作整首歌曲。
模块化分段组装：支持按前奏（Intro）、主歌（Verse）、副歌（Chorus）等结构分段构建，并由模型完成无缝缝合，解决了长音频生成的结构失控问题。
多语言与复杂编排优化：提升了模型在不同语言、复杂歌词配置及配器编排上的可靠性，尤其针对高流速语速（如快节奏 Rap）的清晰度进行了改进。
全链路版权合规：明确模型基于授权数据集训练，生成的曲目具备商业使用权，旨在避开类似 Suno 或 Udio 目前面临的版权诉讼风险。

( @TechCrunch)

02 有亮点的产品

1、雷鸟发布旗舰 AR 眼镜 GT / GT Max：最大 59 度视场角，1899 元起

5 月 27 日消息，国内 AR 眼镜厂商雷鸟创新今晚发布了旗下首个旗舰级 AR 眼镜系列「雷鸟 GT 系列」，包括定位旗舰的 GT Max 与轻量化版本 GT。该系列主打影视级观影体验，围绕大视场角、画质、空间音频与佩戴舒适性进行了全面升级，并首次将杜比视界引入 AR 眼镜产品。

发布会上，雷鸟表示，GT 系列是其首个面向专业影视从业者打造的 AR 眼镜系列，产品开发过程中联合了六位广告导演、纪录片导演和资深摄影师参与共创，目标是在不考虑成本限制的情况下探索 AR 观影眼镜的「物理极限」。

注意到，GT Max 最大的卖点是其 59 度 FOV（视场角）显示系统。雷鸟称，这是目前市面上 FOV 最大的消费级 AR 观影眼镜之一，相较传统 45 度 FOV 产品，显示面积提升约 86%。官方将其等效为「6 米外 267 英寸巨幕」，并强调其沉浸感已接近 IMAX 影院观影体验。

（@极客公园）

2、卧安机器人发布 KATA Friends：集成 dToF 雷达与 4K 视觉，支持核心 AI 能力本地化离线运行

卧安机器人（SwitchBot）在面临股价回撤与亏损扩大的压力下，试图利用 KATA Friends 验证其具身智能技术栈的变现能力。推出 AI 具身陪伴机器人 KATA Friends，采用边缘侧计算架构实现核心交互逻辑的离线运行。该产品旨在通过多模态感知能力与本地化隐私处理技术，推动公司从低单价「执行机器人」向高客单价「具身智能终端」转型。通过差异化的订阅服务尝试建立循环营收。

离线边缘计算架构：该智能体支持在初始设置后脱离网络运行，情绪识别、习惯记忆等核心交互数据均在本地处理；仅日记生成等高算力任务在脱敏且端到端加密后进行云端计算。
多模态感知硬件链路：机身集成 dToF 激光雷达、4K 高清摄像头及四麦克风阵列，支持基于空间感知的自主避障、环境识别及语音/手势指令捕捉。
触控与交互反馈系统：全身设有 12 处触控感应区，配合 5 种款式的全彩 LED 眼睛，可根据互动频率和方式学习家庭成员习惯，形成差异化的「性格」模型。
商业模式变革：产品定价（国行预售 3899 元，海外 699 美元起）较其原有百元级产品线提升显著，且海外市场引入了最高 399.99 美元/年的高级订阅方案（Premium Plan）。

（@新智独角兽）

3、Sesame 推出 iOS 应用预览版，首发多款个人 Agent

Sesame 正式宣布推出 iOS 应用预览版，带来一系列专为日常对话设计的个人 Agent。

官方称其带来了新功能、新角色（如 Maya 和 Miles），并实现了边说话边思考的交互体验。

该预览版已上线并正逐步向更多国家推出。

此外，团队确认 Android 版在开发路线图中，并预告将在 2027 年推出智能眼镜。

（@橘鸦 Juya）

4、AI 母婴硬件品牌 Coddie 获数千万元天使轮融资，采用「端侧小模型+本地算力」架构布局欧美市场

由华为、传音及拓竹科技背景团队创立的 AI 母婴硬件品牌「珂迪 Coddie」完成数千万元天使轮融资，由钟鼎资本独家投资。公司通过「大小模型联动+本地算力」技术方案，旨在将母婴监测设备从单一的「信息提醒工具」升级为具备自主执行能力的「托管式育儿智能体」，首选欧美市场作为商业化切口。

「大小模型联动」端云架构：采用端侧小模型处理实时决策（如婴儿状态识别、即时安抚逻辑），仅在复杂交互或数据分析时调用云端大模型，兼顾响应速度与处理深度。
本地算力中心（Local Computing Hub）：所有高价值育儿数据实现在本地端存储与闭环处理，物理级隔离隐私风险，以符合欧盟 GDPR 等严格的数据合规审查。
任务执行闭环（Actuation Loop）：产品研发重心从「被动监测（Monitoring）」转向「主动执行（Execution）」，利用电机、传感器与 AI 决策联动，实现自动喂养辅助、发育监测及个性化情绪安抚。
基于个体数据的深度学习：模型支持针对特定婴儿的生长轨迹进行个性化微调，通过硬件采集的一手、场景化数据实现算法持续迭代，构建技术护城河。
劳动力替代策略：瞄准欧美市场高昂的人力育儿成本（专业保姆月薪约 1-2 万美元），利用 AI 硬件作为「确定性效率工具」替代部分基础育儿劳动力。

( @WaveGlocal)

03 有态度的观点

1、Spotify CEO：受控的 AI 音乐比盗版和无授权生成更可取

据《卫报》报道，Spotify CEO Alex Norström 昨日为公司进入 AI 生成音乐辩护。

他在接受《金融时报》采访时表示，Spotify 试图提供一种「受控」替代方案，让音乐人能够同意作品被使用并获得收益，避免作品被盗版或被无授权 AI 工具使用。

上周，Spotify 与环球音乐集团达成授权协议，未来将允许订阅用户用 AI 创作翻唱和混音版本。Norström 称，外部已经出现大量违规尝试，平台需要把许可、同意和付费机制提前放进产品设计中。

他给出的方案是把 AI 音乐纳入许可、同意和付费框架中，让生成内容在平台内留下授权链路。报道提到，相关工具会收取额外费用，并允许一首歌曲被扩展为更多翻唱或混音版本。

( @APPSO)

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

作者提示: 个人观点，仅供参考