Sesame 正式推出 iOS 应用,将在 2027 年推出智能眼镜丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@koki、@鲍勃
01 有话题的技术
1、UBase 收购 ReturnZero:内化实时语音识别与说话人日志技术,将于 7 月发布全套 AICC 智能体
韩国 BPO 服务商 UBase 宣布收购语音 AI 初创公司 ReturnZero,旨在将其核心实时语音技术引入自研技术栈。此举完成了从底层语音识别到上层 NLP 逻辑的垂直整合,UBase 计划于 7 月推出能够自主完成意图识别、任务处理及结案的全流程客服智能体。
核心语音技术内化:集成 ReturnZero 的实时语音转文本、高级说话人日志(Speaker Diarization)以及基于高性能后端服务器架构的大规模语音并发处理能力,目前 ReturnZero 拥有 30 项相关专利。
全链路自动化架构:通过整合此前收购的 Wigo(AI 方案)、Nexus Community 与 Hanil Networks(呼叫中心系统)以及 CenterLink(应用开发)的技术资产,UBase 构建了从底层通信协议到上层业务逻辑的闭环 AICC 方案。
智能体自主闭环能力:7 月发布的「全套客服 AI 智能体」目标是脱离人工干预,独立完成从识别客户意图、执行业务咨询、后台任务处理到工单关闭的端到端流程。
五大专项工程项目:启动包括主动外呼(Outbound)AI 智能体开发、STT/TTS 引擎性能优化、支持全球化扩张的多语言版本、针对中小企业的云端订阅服务以及 AICC 集成化产品包。
(@finance.biggo)
2、ElevenLabs 发布 Music v2:支持单曲内跨曲风切换与局部重绘,主打版权合规商业化
ElevenLabs 推出新一代音乐生成模型 Music v2,核心突破在于实现了单曲内的实时风格切换与模块化编排。该模型基于授权数据训练,支持用户对音轨特定片段进行重绘(In-painting),旨在为专业营销和创作团队提供可控的商业级音频生成工具。
跨风格平滑切换:支持在同一音轨中实现极端风格转换(如从歌剧瞬间切换为重金属或快速说唱),同时保持人声与构图的连贯性,并支持集成非音乐类音效。
局部重绘(Selective Regeneration):用户可锁定音轨的其他部分,仅选定特定片段通过 Prompt 进行重新生成,无需重新创作整首歌曲。
模块化分段组装:支持按前奏(Intro)、主歌(Verse)、副歌(Chorus)等结构分段构建,并由模型完成无缝缝合,解决了长音频生成的结构失控问题。
多语言与复杂编排优化:提升了模型在不同语言、复杂歌词配置及配器编排上的可靠性,尤其针对高流速语速(如快节奏 Rap)的清晰度进行了改进。
全链路版权合规:明确模型基于授权数据集训练,生成的曲目具备商业使用权,旨在避开类似 Suno 或 Udio 目前面临的版权诉讼风险。
( @TechCrunch)
02 有亮点的产品
1、雷鸟发布旗舰 AR 眼镜 GT / GT Max:最大 59 度视场角,1899 元起
5 月 27 日消息,国内 AR 眼镜厂商雷鸟创新今晚发布了旗下首个旗舰级 AR 眼镜系列「雷鸟 GT 系列」,包括定位旗舰的 GT Max 与轻量化版本 GT。该系列主打影视级观影体验,围绕大视场角、画质、空间音频与佩戴舒适性进行了全面升级,并首次将杜比视界引入 AR 眼镜产品。
发布会上,雷鸟表示,GT 系列是其首个面向专业影视从业者打造的 AR 眼镜系列,产品开发过程中联合了六位广告导演、纪录片导演和资深摄影师参与共创,目标是在不考虑成本限制的情况下探索 AR 观影眼镜的「物理极限」。
注意到,GT Max 最大的卖点是其 59 度 FOV(视场角)显示系统。雷鸟称,这是目前市面上 FOV 最大的消费级 AR 观影眼镜之一,相较传统 45 度 FOV 产品,显示面积提升约 86%。官方将其等效为「6 米外 267 英寸巨幕」,并强调其沉浸感已接近 IMAX 影院观影体验。
(@极客公园)
2、卧安机器人发布 KATA Friends:集成 dToF 雷达与 4K 视觉,支持核心 AI 能力本地化离线运行
卧安机器人(SwitchBot)在面临股价回撤与亏损扩大的压力下,试图利用 KATA Friends 验证其具身智能技术栈的变现能力。推出 AI 具身陪伴机器人 KATA Friends,采用边缘侧计算架构实现核心交互逻辑的离线运行。该产品旨在通过多模态感知能力与本地化隐私处理技术,推动公司从低单价「执行机器人」向高客单价「具身智能终端」转型。通过差异化的订阅服务尝试建立循环营收。
离线边缘计算架构:该智能体支持在初始设置后脱离网络运行,情绪识别、习惯记忆等核心交互数据均在本地处理;仅日记生成等高算力任务在脱敏且端到端加密后进行云端计算。
多模态感知硬件链路:机身集成 dToF 激光雷达、4K 高清摄像头及四麦克风阵列,支持基于空间感知的自主避障、环境识别及语音/手势指令捕捉。
触控与交互反馈系统:全身设有 12 处触控感应区,配合 5 种款式的全彩 LED 眼睛,可根据互动频率和方式学习家庭成员习惯,形成差异化的「性格」模型。
商业模式变革:产品定价(国行预售 3899 元,海外 699 美元起)较其原有百元级产品线提升显著,且海外市场引入了最高 399.99 美元/年的高级订阅方案(Premium Plan)。
(@新智独角兽)
3、Sesame 推出 iOS 应用预览版,首发多款个人 Agent
Sesame 正式宣布推出 iOS 应用预览版,带来一系列专为日常对话设计的个人 Agent。
官方称其带来了新功能、新角色(如 Maya 和 Miles),并实现了边说话边思考的交互体验。
该预览版已上线并正逐步向更多国家推出。
此外,团队确认 Android 版在开发路线图中,并预告将在 2027 年推出智能眼镜。
(@橘鸦 Juya)
4、AI 母婴硬件品牌 Coddie 获数千万元天使轮融资,采用「端侧小模型+本地算力」架构布局欧美市场
由华为、传音及拓竹科技背景团队创立的 AI 母婴硬件品牌「珂迪 Coddie」完成数千万元天使轮融资,由钟鼎资本独家投资。公司通过「大小模型联动+本地算力」技术方案,旨在将母婴监测设备从单一的「信息提醒工具」升级为具备自主执行能力的「托管式育儿智能体」,首选欧美市场作为商业化切口。
「大小模型联动」端云架构:采用端侧小模型处理实时决策(如婴儿状态识别、即时安抚逻辑),仅在复杂交互或数据分析时调用云端大模型,兼顾响应速度与处理深度。
本地算力中心(Local Computing Hub):所有高价值育儿数据实现在本地端存储与闭环处理,物理级隔离隐私风险,以符合欧盟 GDPR 等严格的数据合规审查。
任务执行闭环(Actuation Loop):产品研发重心从「被动监测(Monitoring)」转向「主动执行(Execution)」,利用电机、传感器与 AI 决策联动,实现自动喂养辅助、发育监测及个性化情绪安抚。
基于个体数据的深度学习:模型支持针对特定婴儿的生长轨迹进行个性化微调,通过硬件采集的一手、场景化数据实现算法持续迭代,构建技术护城河。
劳动力替代策略:瞄准欧美市场高昂的人力育儿成本(专业保姆月薪约 1-2 万美元),利用 AI 硬件作为「确定性效率工具」替代部分基础育儿劳动力。
( @WaveGlocal)
03 有态度的观点
1、Spotify CEO:受控的 AI 音乐比盗版和无授权生成更可取
据《卫报》报道,Spotify CEO Alex Norström 昨日为公司进入 AI 生成音乐辩护。
他在接受《金融时报》采访时表示,Spotify 试图提供一种「受控」替代方案,让音乐人能够同意作品被使用并获得收益,避免作品被盗版或被无授权 AI 工具使用。
上周,Spotify 与环球音乐集团达成授权协议,未来将允许订阅用户用 AI 创作翻唱和混音版本。Norström 称,外部已经出现大量违规尝试,平台需要把许可、同意和付费机制提前放进产品设计中。
他给出的方案是把 AI 音乐纳入许可、同意和付费框架中,让生成内容在平台内留下授权链路。报道提到,相关工具会收取额外费用,并允许一首歌曲被扩展为更多翻唱或混音版本。
( @APPSO)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
作者提示: 个人观点,仅供参考