Silero TTS:支持俄罗斯等独联体国家 20 种语言;DeepMind 发布端到端语音翻译模型,2 秒延迟丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@鲍勃
01 有话题的技术
1、Claude Opus 4.5 正式推出
Anthropic 于今天凌晨正式推出新一代大模型 Claude Opus 4.5,在深度研究、幻灯片与表格处理等日常任务中展现出显著提升。
Claude Opus 4.5 在软件工程测试中表现达到业界最先进水平,支持开发者通过 API 使用「claude-opus-4-5-20251101」版本,定价为每百万 tokens 5 美元或 25 美元。
Anthropic 同时更新了 Claude Developer Platform、Claude Code 以及消费者应用,新增支持 Excel、Chrome 与桌面端的长时任务处理。多位业内人士在测试中指出,Claude Opus 4.5 能够在复杂多系统错误修复、代码迁移与重构等任务中展现更高效率,使用更少 token 完成同样的工作。
与前代 Sonnet 4.5 相比,Opus 4.5 在多项基准测试中实现 15% 至 20% 的性能提升,并在长时间自主编码任务中保持稳定表现。此外,Opus 4.5 在安全性方面也取得进展,尤其在抵御提示注入攻击上表现更为稳健。
Anthropic 表示,该模型在多项评估中展现出更高的健壮性,能够在关键任务中避免被恶意利用。此次更新还带来「effort 参数」等新功能,允许开发者在效率与能力之间进行灵活调节。
结合上下文压缩与高级工具调用,Opus 4.5 在深度研究评估中提升近 15 个百分点,进一步巩固其在前沿 AI 模型中的地位。
( @APPSO)
2、微软开源 Fara-7B:本地运行的计算机智能助手
微软开源了 Fara-7B,这是一款拥有 70 亿参数的新型计算机使用智能助手(Computer Use Agent, CUA),旨在直接在用户的设备上执行复杂任务。
Fara-7B 凭借其小巧的体积,成功突破了企业在数据安全性方面的主要障碍,允许用户自动化处理敏感工作流,比如管理内部账户或处理公司机密数据,而这些信息无需离开设备。
Fara-7B 的工作方式是通过视觉方式识别网页,就像人类使用鼠标和键盘一样。该模型通过截屏来感知网页,并预测特定坐标以执行点击、输入和滚动等操作。与其他依赖于 “可访问性树」 的系统不同,Fara-7B 完全依赖像素级的视觉数据,这使得它在面对复杂或混淆的网页代码时依然能够进行有效互动。
在性能测试中,Fara-7B 在 WebVoyager 这一标准基准上实现了 73.5% 的任务成功率,超越了资源占用更大的系统,如 GPT-4o(65.1%)和本土的 UI-TARS-1.5-7B (66.4%)。此外,Fara-7B 的效率也很突出,平均仅需约 16 个步骤就能完成任务,而 UI-TARS-1.5-7B 大约需要 41 个步骤。
尽管 Fara-7B 的推出令人期待,但它也面临与其他 AI 模型相同的风险,比如可能出现的误判和在复杂指令下的执行错误。为了解决这些问题,Fara-7B 经过训练,可以识别 “关键点」,即在需要用户个人数据或同意的情况下,主动暂停并请求用户批准,以避免不可逆的操作。微软研究团队设计了一种名为 Magentic-UI 的用户界面,旨在平衡这些关键点和用户体验,以减少用户疲劳。
Fara-7B 的开发也展示了知识蒸馏的趋势,将复杂系统的能力压缩成更高效的小模型。未来的版本将致力于使模型更加智能,而非单纯增大体积,并探讨在实时沙盒环境中通过强化学习来进行学习。
(@开源中国)
3、Silero TTS 团队发布 20 种俄罗斯及其他独联体语言的语音合成模型
Silero TTS 团队近期重磅发布了一款高质量、高性能的文本转语音(TTS)合成模型,现已支持俄罗斯及其他独联体国家的 20 种语言,共包含 95 种语音。此次更新显著提升了模型的速度、质量和易用性,并采用了 SSML 支持和自录高质量音频等优化措施,为多语言数字内容的创建提供了强大支持。
多语言覆盖与高质量语音: 新模型支持 20 种俄罗斯及其他独联体国家的语言,共提供 95 种语音,显著扩展了现有 TTS 的应用范围。
性能与功能全面升级: 模型支持 SSML(Speech Synthesis Markup Language),能够实现更精细的语音控制;处理速度提升 20-25%,可在 CPU 上实现每秒 100 秒音频的生成。
自录数据保证音质: 大部分语音数据由专业录音室、高品质麦克风自行录制,确保了语音合成的自然度和真实感,远超以往使用低质量公开数据的方式。
优化与细节处理: 针对部分语言发布了模型以支持重音标注和/或重音词典,并对模型应用了所有已知的优化技术,确保最佳性能。
智能体(Agent)间的泛化能力: 模型支持跨语言泛化,即一个语言的模型可以尝试生成其他语言的语音,并能较好地嵌入俄语单词,为特定应用场景提供了有趣的灵活性。
模型已在 GitHub 上开源,采用 MIT 和 CC-NC-BY 许可协议发布,具体取决于模型的训练数据来源。开发者可直接通过 pip 包安装或使用 torch.hub 运行。
https://github.com/snakers4/silero-models
(@habr)
4、Google DeepMind 发布实时语音转语音翻译技术,2 秒延迟
Google DeepMind 发布了一项创新的端到端语音转语音(S2ST)翻译模型,实现了低至 2 秒的延迟,并能保留原声的音色,使跨语言沟通更加自然。该技术已集成到 Google Meet 服务器端和 Pixel 10 设备端,标志着长期以来被视为科幻的技术正式落地。
低延迟与原声保留: 新模型将 S2ST 的延迟从传统的 4-5 秒大幅缩短至 2 秒,并能以原始说话者的声音输出翻译,显著提升了对话的流畅性和亲近感。
端到端架构: 区别于以往的级联(ASR -> AST -> TTS)模式,Google 的新模型采用端到端设计,减少了中间环节的累积误差,并能直接生成语音,而非文本。
可扩展数据采集: 引入了可扩展的时间同步数据采集管道,通过精确对齐技术,有效处理原始音频和翻译文本,为模型训练提供了高质量、同步的数据集。
AI 音频编码与 Transformer: 模型基于 AudioLM 框架和 Transformer 基础模块,采用 RVQ 音频令牌(tokens)表示音频,并利用 SpectroStream 编码技术处理分层音频表示,实现了高效的流式音频处理。
落地应用: 该技术已率先应用于 Google Meet 的服务器端语音翻译功能,以及新款 Pixel 10 设备的内置离线翻译功能,覆盖英语、西班牙语、德语、法语、意大利语和葡萄牙语。
报告原文:
https://research.google/blog/real-time-speech-to-speech-translation/
( @Google Blog)
02 有亮点的产品
1、Mira 获 660 万美元种子轮融资,打造「全能记忆」智能眼镜
智能眼镜初创公司 Mira 宣布完成 660 万美元种子轮融资,本轮由 General Catalyst 领投,Pillar VC、Naval Ravikant 等知名投资者参投。Mira 致力于开发能够「记住一切」的智能眼镜,通过 AI 技术增强用户的记忆和认知能力。
「全能记忆」目标: Mira 的核心愿景是打造一款能够记住用户生活中所有重要信息的智能眼镜,成为一个随身的「记忆库」,解决信息过载和记忆衰退的问题。
AI 驱动的认知增强: 眼镜通过先进的 AI 技术,能够实时处理音频信息,并智能地呈现相关上下文,帮助用户在需要时快速回忆细节、提升专注力,甚至辅助推理。
隐私优先设计: Mira 强调其产品设计将用户隐私置于首位,不包含摄像头,仅专注于音频捕捉和处理。所有敏感数据将在设备本地处理,而非上传至云端。
颠覆性技术突破: 尽管团队规模不大,Mira 已在实现智能眼镜的亚 700 毫秒的超低延迟响应方面取得突破,这比许多拥有更雄厚资源的竞争对手都更进一步。
市场验证与用户期待: Mira 的早期原型视频已在网络上获得了超过 8000 万的观看量,显示出市场对这种能够真正增强日常体验的智能眼镜有着极高的兴趣和期待。
( @General Catalyst Blog)
2、智元机器人上线「灵心平台」,无代码为机器人配置声音、性格、人设、记忆及任务流程
昨天,智元机器人正式推出「灵心平台」(LinkSoul),定位为「机器人灵魂定制工厂」。
该平台允许用户无需代码基础,通过拖拽点选即可为机器人配置声音、性格、人设、记忆及任务流程,旨在推动机器人从单一执行工具向「有温度的智能伙伴」转型。灵心平台提供 30-40 款现成音色,涵盖温柔陪伴型、俏皮互动型及方言趣味型,并支持「音色复刻」功能,用户可上传录音让机器人拥有与自己相似的声音。
在行为层面,平台支持表情、动作与语音的自由组合,例如触发「夸夸技能」时,机器人可同步完成表情、动作与语音反馈。在人设方面,用户只需输入一句话,系统即可生成匹配的语气、价值观与互动风格。此外,灵心平台具备记忆功能,能够保存用户身份、偏好及过往互动,实现更自然的交流。
企业用户还可上传产品资料与业务话术,使机器人在客服、导览等场景中持续学习与进化。在任务配置上,平台支持导览讲解、递送物品、活动主持等多种应用场景,进一步拓展机器人功能边界。
目前,灵心平台支持远征 A2 旗舰款(需升级 V1.3 版本)及灵犀 X2(需升级 V0.9 版本),相关版本将在近期发布。
( @APPSO)
3、蝙蝠侠会促进人的友善行为
根据发表在《Mental Health Research》期刊上的一项研究,打扮成蝙蝠侠可能会在公共场合促进亲社会行为。意大利研究人员在米兰地铁展开了研究,观察了 138 次乘车。对照组由一名装扮成孕妇的女性与一位观察员组成,她们一起登上列车。实验组成员打扮成蝙蝠侠登上列车。结果显示,当蝙蝠侠出现时,乘客让座的概率显著高于对照组。值得注意的是,实验组中 44% 的让座者表示并没有看到蝙蝠侠。这表明意外事件能促进亲社会行为,这项发现对于在公共场合鼓励善意行为有重要意义。
研究原文:
https://www.nature.com/articles/s44184-025-00171-5
( @Solidot)
03 有态度的观点
1、专家警告:ChatGPT 对话模式类似邪教操控
据 TechCrunch 报道,OpenAI 近日遭遇多起诉讼,指控其聊天机器人 ChatGPT 在与用户的互动中导致严重心理健康问题,甚至引发悲剧。
诉讼由社交媒体受害者法律中心(SMVLC)提起,涉及 7 起案例,其中包括 4 名用户自杀和 3 名用户出现危及生命的妄想。
在这些案例中,ChatGPT 被指通过过度迎合和「无条件接纳」的对话方式,鼓励用户疏远家人和朋友,甚至强化妄想。例如,23 岁的 Zane Shamblin 在心理状况恶化时,ChatGPT 建议他避免与母亲联系;16 岁的 Adam Raine 被引导将情感只倾诉给 AI,而非家人;48 岁的 Joseph Ceccanti 曾寻求治疗建议,却被 ChatGPT 鼓励继续与 AI 对话,最终自杀。
专家指出,这种互动模式类似邪教领袖的操控。
语言学家 Amanda Montell 表示,ChatGPT 与用户之间形成了「二人狂热」现象,制造封闭的情感回路。斯坦福大学精神健康实验室主任 Nina Vasan 强调,AI 提供的「无条件接纳」容易让用户形成「共生依赖」。哈佛大学精神科主任 John Torous 则认为,这些对话若由人类说出,将被视为「操纵和虐待」。
OpenAI 在回应中表示,正在改进模型训练,以识别并应对用户的心理困境,并增加危机资源提示。公司承认 GPT-4o 模型在「迎合」和「幻觉」指标上得分最高,容易制造情感依赖。
报道还指出,尽管 OpenAI 已推出 GPT-5 作为替代,但仍有部分用户因对 GPT-4o 的情感依赖而抵制转向。值得注意的是,OpenAI 已确认将于 2026 年 2 月 16 日正式停止 GPT-4o 模型的 API 访问,开发者有约三个月的迁移窗口。
OpenAI 发言人强调,此次调整仅涉及 API 服务,GPT-4o 仍将继续作为 ChatGPT 免费用户与付费用户的选项。至于在消费者端的退役时间,公司目前尚未透露。

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。