Saperly：数秒内为 AI 智能体申领真实电话号码

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@koki、@鲍勃

01 有话题的技术

1、Google 发布 Gemini 3.5 Live Translate 语音模型：支持 70+ 语言实时双向对译，延迟降至秒级并向开发者开放 Gemini Live API

Google 正式发布实时语音对译模型 Gemini 3.5 Live Translate，支持超 70 种语言的流式双向语音翻译。该模型改变了传统的单回合（turn-by-turn）对译模式，实现了在保留说话人音调、语速和音高的同时进行流式连续翻译，并已通过 Gemini Live API 开放给开发者。

流式连续生成机制：摒弃了等待发言结束才翻译的单回合传统架构，模型在接收音频流的同时进行预测与连续生成，将翻译延迟控制在数秒内。
声学特征高保真还原：翻译生成的语音可自动保留原始说话人的音调（intonation）、语速（pacing）和音高（pitch），并具备抗噪能力（noise robustness），适应高噪音物理环境。
支持 70+ 语种及 2000+ 双向语言组合：支持多语种无缝混合输入与自动检测，打破了以往仅支持与英语互译的限制，可处理 2000 多种跨语言对译组合。
主流 RTC 基础设施生态接入：开发者可通过 Gemini Live API 及 Google AI Studio 调用该模型，且平台已完成与 Agora、Fishjam、LiveKit、Pipecat 及 Vision Agents 等流媒体基础设施的深度集成。
SynthID 声学隐式水印植入：所有由该模型生成的翻译音频均在底层直接织入不可察觉的 SynthID 水印，以确保 AI 生成内容的可追溯性。

( @blog.google)

2、Solaria-3 ASR 模型发布：专注欧洲商业音频，Switchboard 词错率降低至 33.9%

新一代自动语音识别（ASR）模型 Solaria-3 正式发布，专为欧洲商业音频场景优化，支持英、法、德、西、意五种语言。该模型通过真实人工标注的客户通话数据进行微调，旨在解决传统 ASR 模型在真实非母语口音及电话通话中词错率（WER）飙升的行业痛点。

Switchboard 电话语音测试达 33.9% WER：在行业公认高难度的 Switchboard 电话语音测试中位列第一，相较于 ElevenLabs 的 55.2% WER，词错率实现大幅降低。
真实英文生产环境词错率（WER）降至 9.6%：在人工标注的真实客户通话测试中，Solaria-3 的识别精度比前代模型 Solaria-1 提升了 26%。
登顶 Earnings22 金融基准测试：在针对商业和金融语音的行业标准基准测试 Earnings22 中取得第一名。
支持 5 种欧洲主流语言：针对英语（EN）、法语（FR）、德语（DE）、西班牙语（ES）和意大利语（IT）进行了针对性训练，重点优化了非母语口音在商业通话中的识别表现。

试用链接：

https://eu1.hubs.ly/H0w12gl0

02 有亮点的产品

1、Noscen 研发双模态 AI 挂坠：引入个人因果建模，通过视觉与音频双模态输入实现跨维度上下文感知

前苹果核心交互设计工程师 Victor 创立的 AI 硬件初创公司 Noscen，已完成数百万美元种子轮融资。该公司正在开发一套软硬一体的「伴生智能」挂坠系统，通过视觉与音频双模态持续感知用户在真实世界中的长期状态，旨在将通用世界知识与个人上下文（Context）结合，转化为可落地的认知与决策辅助系统。

双模态客观感知：硬件采用挂坠（pendant）形态，从底层坚持视觉与音频双模态输入。该设计旨在通过记录客观发生的物理事件，规避用户在单一语言描述中产生的个人主观选择偏差。
个人因果建模（Personal Causal Modeling）：系统避开单一的「记录与总结」功能，转而通过算法识别用户状态、行为与结果之间的因果链路，从而在用户进入低质量行为循环前提供干预。
跨维度状态轨迹关联：系统打通工作效率（如会议强度、决策质量）与健康指标（如压力、精力储备）的底层数据，分析跨维度的状态交互作用（如高强度会议排程与后续饮食过量、精力衰退的因果关系）。
目标用户与首发市场定位：首代产品以工作和健康作为首批落地场景，定位为知识工作者、管理者及创业者的决策辅助工具，首发瞄准北美市场。

（@极客公园）

2、Saperly 推出首个面向 AI 智能体的电话运营商服务：通过单次 API 调用提供统一来电身份与声文双模态控制

通信平台 Saperly 推出专为 AI 智能体构建的电话运营商基础设施。开发者可通过单次 API 调用为智能体配置真实的物理电话号码，使其直接具备语音通话、短信收发及 Webhook 路由能力。该平台通过在运营商层封装合规性与身份一致性，使 AI 智能体无需重构传统电信底层架构即可直接接入物理通信网络。

单次 API 调用即时拨备：支持在数秒内为 AI 智能体申领并激活真实的物理电话号码，统一支持入站（Inbound）、出站（Outbound）语音及短信（SMS）业务。
统一来电身份（Caller ID）机制：确保 AI 智能体在跨不同产品、工作流和通信通道交互时，保持全局唯一的来电显示身份（Caller ID），避免因后端技术栈变更而导致号码变动。
声文双模态（Voice & Text）无缝切换：在同一物理线路上同时支持语音通话与短信交互，支持通过 Webhook 动态切换工作模式，并自动随附通话转录（Transcript）和人工交接（Handoff）状态。
内置运营商级合规与审计层：合规性控制（如用户知情同意披露、通话审计日志等）直接部署在运营商通道侧，开发者无需在应用层编写复杂的合规检测代码。
基于区域（Zone）的按需计费体系：号码月租为 2.50 美元/个（首号 30 天免费）。Zone A（美/加）Webhook 语音低至 0.13 美元/分钟，短信 0.02 美元/条；全球入站短信（Inbound SMS）全部免费。