Saperly:数秒内为 AI 智能体申领真实电话号码

图片


开发者朋友们大家好:


这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。


本期编辑:@koki、@鲍勃


01 有话题的技术

1、Google 发布 Gemini 3.5 Live Translate 语音模型:支持 70+ 语言实时双向对译,延迟降至秒级并向开发者开放 Gemini Live API

Google 正式发布实时语音对译模型 Gemini 3.5 Live Translate,支持超 70 种语言的流式双向语音翻译。该模型改变了传统的单回合(turn-by-turn)对译模式,实现了在保留说话人音调、语速和音高的同时进行流式连续翻译,并已通过 Gemini Live API 开放给开发者


  • 流式连续生成机制:摒弃了等待发言结束才翻译的单回合传统架构,模型在接收音频流的同时进行预测与连续生成,将翻译延迟控制在数秒内

  • 声学特征高保真还原:翻译生成的语音可自动保留原始说话人的音调(intonation)、语速(pacing)和音高(pitch),并具备抗噪能力(noise robustness),适应高噪音物理环境

  • 支持 70+ 语种及 2000+ 双向语言组合:支持多语种无缝混合输入与自动检测,打破了以往仅支持与英语互译的限制,可处理 2000 多种跨语言对译组合。

  • 主流 RTC 基础设施生态接入:开发者可通过 Gemini Live API 及 Google AI Studio 调用该模型,且平台已完成与 Agora、Fishjam、LiveKit、Pipecat 及 Vision Agents 等流媒体基础设施的深度集成。

  • SynthID 声学隐式水印植入:所有由该模型生成的翻译音频均在底层直接织入不可察觉的 SynthID 水印,以确保 AI 生成内容的可追溯性。


( @blog.google)



2、Solaria-3 ASR 模型发布:专注欧洲商业音频,Switchboard 词错率降低至 33.9%

新一代自动语音识别(ASR)模型 Solaria-3 正式发布,专为欧洲商业音频场景优化,支持英、法、德、西、意五种语言。该模型通过真实人工标注的客户通话数据进行微调,旨在解决传统 ASR 模型在真实非母语口音及电话通话中词错率(WER)飙升的行业痛点


  • Switchboard 电话语音测试达 33.9% WER:在行业公认高难度的 Switchboard 电话语音测试中位列第一,相较于 ElevenLabs 的 55.2% WER,词错率实现大幅降低。

  • 真实英文生产环境词错率(WER)降至 9.6%:在人工标注的真实客户通话测试中,Solaria-3 的识别精度比前代模型 Solaria-1 提升了 26%

  • 登顶 Earnings22 金融基准测试:在针对商业和金融语音的行业标准基准测试 Earnings22 中取得第一名。

  • 支持 5 种欧洲主流语言:针对英语(EN)、法语(FR)、德语(DE)、西班牙语(ES)和意大利语(IT)进行了针对性训练,重点优化了非母语口音在商业通话中的识别表现。


试用链接:

https://eu1.hubs.ly/H0w12gl0



02 有亮点的产品


1、Noscen 研发双模态 AI 挂坠:引入个人因果建模,通过视觉与音频双模态输入实现跨维度上下文感知

图片


前苹果核心交互设计工程师 Victor 创立的 AI 硬件初创公司 Noscen,已完成数百万美元种子轮融资。该公司正在开发一套软硬一体的「伴生智能」挂坠系统,通过视觉与音频双模态持续感知用户在真实世界中的长期状态,旨在将通用世界知识与个人上下文(Context)结合,转化为可落地的认知与决策辅助系统。


  • 双模态客观感知:硬件采用挂坠(pendant)形态,从底层坚持视觉与音频双模态输入。该设计旨在通过记录客观发生的物理事件,规避用户在单一语言描述中产生的个人主观选择偏差

  • 个人因果建模(Personal Causal Modeling):系统避开单一的「记录与总结」功能,转而通过算法识别用户状态、行为与结果之间的因果链路,从而在用户进入低质量行为循环前提供干预。

  • 跨维度状态轨迹关联:系统打通工作效率(如会议强度、决策质量)与健康指标(如压力、精力储备)的底层数据,分析跨维度的状态交互作用(如高强度会议排程与后续饮食过量、精力衰退的因果关系)。

  • 目标用户与首发市场定位:首代产品以工作和健康作为首批落地场景,定位为知识工作者、管理者及创业者的决策辅助工具,首发瞄准北美市场


(@极客公园)



2、Saperly 推出首个面向 AI 智能体的电话运营商服务:通过单次 API 调用提供统一来电身份与声文双模态控制


通信平台 Saperly 推出专为 AI 智能体构建的电话运营商基础设施。开发者可通过单次 API 调用为智能体配置真实的物理电话号码,使其直接具备语音通话、短信收发及 Webhook 路由能力。该平台通过在运营商层封装合规性与身份一致性,使 AI 智能体无需重构传统电信底层架构即可直接接入物理通信网络。


  • 单次 API 调用即时拨备:支持在数秒内为 AI 智能体申领并激活真实的物理电话号码,统一支持入站(Inbound)、出站(Outbound)语音及短信(SMS)业务。

  • 统一来电身份(Caller ID)机制:确保 AI 智能体在跨不同产品、工作流和通信通道交互时,保持全局唯一的来电显示身份(Caller ID),避免因后端技术栈变更而导致号码变动。

  • 声文双模态(Voice & Text)无缝切换:在同一物理线路上同时支持语音通话与短信交互,支持通过 Webhook 动态切换工作模式,并自动随附通话转录(Transcript)和人工交接(Handoff)状态。

  • 内置运营商级合规与审计层:合规性控制(如用户知情同意披露、通话审计日志等)直接部署在运营商通道侧,开发者无需在应用层编写复杂的合规检测代码。

  • 基于区域(Zone)的按需计费体系:号码月租为 2.50 美元/个(首号 30 天免费)。Zone A(美/加)Webhook 语音低至 0.13 美元/分钟,短信 0.02 美元/条;全球入站短信(Inbound SMS)全部免费。


( @trysaperly@X)



3、高通宣布车端人工智能 Claw 生态计划,将智能体 AI 引入智能座舱


6 月 5 日消息,在 2026 高通汽车技术与合作峰会上,高通技术公司与诚迈科技、车联天下、斑马智能、德赛西威、镁佳科技、中科创达等生态企业,宣布车端人工智能 Claw 生态计划


官方表示,此项生态计划将骁龙数字底盘解决方案与高通智能体 AI 运行环境结合,并发挥各家生态企业在座舱、车载操作系统、智能体中间件、AI 应用和量产交付方面的能力。这一计划旨在消除长期以来阻碍下一代汽车智能开发的碎片化问题,为车企提供一条从概念验证到量产落地更快速、更集成化的路径。


通过车端人工智能 Claw 生态计划,高通技术公司与生态企业致力于将 AI 智能体和多模态大模型直接部署到车端,推动汽车从「移动工具」进化为「智能伙伴」。

我们获悉,车端人工智能 Claw 生态计划和智能体 AI 运行环境聚焦全天候多模态感知、支持复杂决策的百亿参数大模型、车规级安全架构、持续演进的 AI 生态系统等核心能力。


(@IT 之家)


03 有态度的观点



1、微软 AI CEO 苏莱曼改口,收回「AI 将于 18 个月内取代大部分白领工作」言论


据消息,微软 AI 部门 CEO 穆斯塔法 · 苏莱曼正在淡化此前的「AI 将取代白领工作」言论。


苏莱曼在昨天的一档播客节目中表示,他当时想表达的意思是,AI 将帮助白领完成工作,而不是直接取代他们的职业


图片


他解释称:


发电子邮件、与同事沟通、做 PPT 这类任务将越来越自动化和数字化,我们能够生成越来越多这类内容。


我觉得白领职位并不一定会消失,人们能够借助工具更快、更高效地完成工作。如今这类工作本身就相当重复、依赖人工劳动且耗费时间


技术发展的自然方向,就是让你的生活变得更加轻松、快速,减少摩擦并实现更优秀的体验


据此前报道,苏莱曼曾在今年 2 月接受《金融时报》采访时表示:


白领工作,也就是坐在电脑前的职业,我觉得,无论是律师、会计师、经理还是市场营销人员,其中大多数任务都将在未来 12-18 个月内被 AI 完全自动化。」


(@极客公园)



04 社区黑板报


招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)



1、【活动报名·上海】面壁智能 × OpenBMB 组织了一场硬核且有趣的【端侧】智能体创客派对


带上你的树莓派、智能眼镜或机器狗… 一起来参加 Party


只要自带硬件入场, MiniCPM 百亿 Token 直接送!!


而且!AGI Bar 全场散布着超多 AI 硬件,你可以现场寻宝,逐一体验,集齐「六便士」限量周边(非常漂亮!


时间:2026 年 6 月 13 日(周六) 18:30


坐标:上海徐汇·AGI Bar 知识蒸馏


报名:

https://modelbest.feishu.cn/share/base/form/shrcnAYqYZx8YFYwHafDwsb4uKe


带上硬件,喝着精酿,一起把「月亮」和「六便士」都装进口袋!


图片




图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

作者提示: 个人观点,仅供参考

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    关键词
    // 相关帖子
    Coming soon...
    • 0
    Saperly:数秒内为 AI 智能体申领真实电话号码RTRTE_Dev_Comm