Willow 升级 AI 语音写作助手 Scribe:根据上下文模仿用户风格输出丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@koki、@鲍勃
01 有话题的技术
1、「ElevenLabs」发布「Dubbing v2」:基于 Audio-to-Audio 架构,支持 90+ 语言的原生性能条件化配音
AI 语音技术公司「ElevenLabs」推出新一代 AI 配音模型「Dubbing v2」。该模型采用端到端的 Audio-to-Audio 架构,直接对原始音频的语气、情感和语调进行条件化建模(conditioning),而非依赖文本转译。此更新实现了全自动化的多语种配音流水线,大幅提升了音色克隆与时间戳同步的精准度。
Audio-to-Audio 核心架构:放弃传统「文本转译-翻译-语音合成」的分步管线,直接基于源音频的物理声学特征进行转换,实现跨语言的情感、语气、音高(pitch)和语调(tonality)无损迁移。
90+ 语种原生音色克隆:模型支持超过 90 种语言的自动翻译与配音,在生成目标语言音频的同时,能够完美保留原讲述者的独特声音身份(voice identity)。
内置同步感知翻译逻辑(Sync-aware Translation):算法底层嵌入了时间同步逻辑,生成的译文和音频可在无需人工干预的情况下,自动对齐原始音频的起始与停顿时间点。
全自动零流水线搭建(Fully Automated Workflow):单一接口整合了翻译、克隆、配音和同步四大功能,支持输入源音频、源文本以及目标文本,实现一键式全流程交付。
(@Elevenlabs)
2、阶跃星辰发布「Step 3.7 Flash」:多模态智能体吞吐达 400 TPS,支持 Advisor 级联模式减产 89% 编码成本
阶跃星辰(StepFun)推出 196B 参数量(含 1.8B ViT、11B 激活参数)的原生多模态大模型「Step 3.7 Flash」,将智能体(agent)执行吞吐提升至最高 400 TPS。该模型原生集成了视觉搜索与 Python 统一代码接口,并通过引入「Advisor Mode」级联架构,让轻量化执行模型在关键决策点调用大模型,在保持 Flash 级别低成本的同时达到前沿模型 97% 的编码性能。
高吞吐低成本架构:模型总参数 196B(含 1.8B ViT),激活参数 11B。提供高达 400 TPS 的智能体执行吞吐,支持「Advisor Mode」级联调度,在 SWE-Bench Verified 评测中以 $0.19/任务的单价(约为 Claude Opus 4.6 成本的九分之一)实现了其 97% 的代码生成与执行表现。
原生视觉动作空间与 Python 接口:模型集成高分辨率感知与交互工具链(支持裁剪、缩放、绘制像素及边界框),基于统一的 Python 代码接口运行,在 V*(95.29%)、HR-Bench 4K(89.13%)等纯视觉与空间推理测试中逼近或超越部分 Pro 级别模型。
广泛的智能体工程栈兼容:原生适配「Claude Code」、「KiloCode」、「Hermes Agent」、「OpenClaw」等主流智能体编排框架,在内部 Step-SWE-Bench 基准测试中平均胜率达 67.08%,缩小了不同框架在调用 Flash 模型时的提示词与工具 Schema 兼容性偏差。
跨端侧及数据中心部署矩阵:除提供在线开放平台(platform.stepfun.ai / platform.stepfun.com)和第三方生态(OpenRouter、NVIDIA NIM)接入外,原生适配 vLLM、SGLang、Hugging Face Transformers 及 llama.cpp 推理后端,支持最低 128GB 统一内存的本地工作站(如 AMD Ryzen AI Max+ 395 或 Mac Studio)进行私有化部署。
参考链接:
https://static.stepfun.com/blog/step-3.7-flash/
https://github.com/stepfun-ai/Step-3.7-Flash
https://huggingface.co/stepfun-ai/Step-3.7-Flash-GGUF
(@stepfun)
3、Mistral AI 将 Le Chat 更名为 Vibe 并推出 Work 与 Code 模式
Mistral AI 正式将其对话产品 Le Chat 更名为 Vibe,定位为执行长周期、多步骤复杂任务的统一 Agent。
全新上线的 Work 模式支持接入 Google Workspace 等办公工具执行计划与搜索。
Code 模式则在网页端提供隔离沙盒以实现并行编码和自动提交 PR,同时推出了配合该模式的 VS Code 扩展。
据媒体报道,此举旨在与 OpenAI 等公司的同类 Agent 展开竞争,且 Pro 订阅价格已下调至每月 14.99 美元。
(@橘鸦 Juya)
02 有亮点的产品
1、光帆 AI 穿戴设备接入腾讯出行
昨天,光帆科技宣布与腾讯出行服务达成合作,光帆 AI 全感穿戴设备将接入腾讯出行服务,相关功能将于 6 月 5 日上线。
用户可通过语音发起叫车需求,系统根据当前位置、目的地等信息,引导完成价格预估、下单叫车和自动支付流程。
光帆 AI 全感穿戴设备是光帆科技旗下首款产品,已于 5 月 15 日正式开售。官方信息显示,该产品上线后登顶京东 AI 耳机热卖榜 TOP1,并连续 8 天保持榜首位置,首批产品目前已售罄,现已开启新一轮预售。
( @APPSO)
2、「HMD」联合「Sarvam AI」发布首款预装本地化大模型手机:搭载 105B 参数「Indus」聊天机器人,定价 10,999 卢比
芬兰手机制造商「HMD」宣布推出其首款智能手机「Vibe 2 5G」,该机型原生预装了印度人工智能创业公司「Sarvam AI」开发的智能手机聊天机器人「Indus」。通过这一硬件级捆绑,Sarvam AI 将其针对本地特定语境训练的 105B 参数大模型直接推向印度大众硬件市场,旨在解决英语 LLM 在非英语语系及高流动性方言地区的落地渗透瓶颈。
105B 参数本地化多语言模型:预装的「Indus」应用基于 Sarvam AI 在本地训练的 105B 参数模型构建,原生支持 22 种印度指定语言,并支持句中语速极高的语篇码率切换(Code-switching,如印地语与英语混合输入)的上下文意图理解。
千元级硬件配置与定价:搭载该应用的「Vibe 2 5G」定位中端 Android 市场,配备 6,000 mAh 电池,官方定价为 10,999 卢比(约合 114 美元)。
功能受限的初代工程形态:当前预装的 Indus 应用必须依赖在线网络运行,不支持离线端侧推理(Offline usage),且现阶段未与手机操作系统(OS)深度集成,无法通过系统级快捷键或手势呼出 AI 助手。
下沉向功能机生态覆盖:该合作方案后续将覆盖 Vibe 全系智能手机,且两家公司计划在未来数月内推出集成 Sarvam AI 的功能机,借此切入 HMD 在印度市占率达 4% 的功能机存量市场。
( @TechCrunch)
3、 Silbo 机器人:集成情感识别系统与户外跟随功能的活跃老人陪伴智能体
设计师 Taeyoon Kim 与韩国弘益大学(Hongik University)合作开发了 AI 机器人 Silbo。该产品放弃了主流养老科技侧重的生命体征监测功能,转而通过习惯学习算法与多模态交互,为身体自理能力较强的「活跃老人」提供情绪价值与社交连接支持。
多模态情感识别与反馈系统: Silbo 通过分析用户对话内容及语音语调识别情绪状态,并利用可变面部表情阵列进行拟人化回应(如微笑、思考状),降低人机交互的工具感。
个性化作息学习算法: 机器人内置行为观察模型,通过记录用户初期的日常生活规律生成定制化交互逻辑,将传统的定时硬性提醒转变为基于用户节奏的主动配合。
户外跟随模式(Outdoor Follow-me): 区别于常见的桌面级陪伴机器人,Silbo 具备移动底盘与定位导航能力,支持在散步、购物等户外场景中进行实时跟随,扩展了智能体的作业空间半径。
低门槛数字资产管理与通信接口: 集成语音转文字(STT)与数字回忆记录功能,可自动创建数字相册并简化老人与亲友间的文字通讯流程,消除数字鸿沟。
(@新智独角兽)
4、Willow 发布语音 AI 写作助手 Willow Scribe:集成全局热键,支持应用内上下文回复与跨应用高亮文本语音重写
Willow 推出语音 AI 写作助手 Willow Scribe。该工具通过全局热键唤醒,使用户能够通过口头粗略指令生成符合个人风格的文本草稿。通过读取当前应用(如 Slack、邮件)的屏幕上下文,Willow Scribe 可实现应用内自动回复及高亮文本的即时重写与翻译。
全局热键唤醒与模糊口令草稿生成:用户按下自定义热键并输入「给 John 写一封设计评审的跟进邮件」等模糊语音指令,系统即可自动学习并模拟用户的个人写作风格,生成完整的邮件或消息草稿。
第三方应用线程上下文感知回复:在 Slack、电子邮件等通讯软件的特定讨论线程(Thread)中,系统能够自动读取上下文历史记录,并根据用户的简短语音指示(如「回复他我周五发 PPT」)自动合成语义连贯的行内回复。
屏幕高亮文本行内语音编辑(Inline Editing):用户可在任意文本区域内高亮选定特定段落,触发热键并通过语音下达「让这段话更清晰」或「将其翻译为中文」等指令,系统将直接在当前光标处进行文本的重写、润色与多语言翻译。
Willow Scribe 将传统的「语音转文字(ASR)」升级为「语音转语义意图(Speech-to-Intent)」的智能体级工作流。
目前产品已上线并开放体验,官方正通过社交媒体互动提供 1 个月的免费试用额度。
(@Willow)
03 有态度的观点
1、罗福莉:MiMo API 降价来自更低推理成本
小米 MiMo 官方日前宣布 MiMo-V2.5 系列 API 永久降价,相比原始 API 定价最高降幅可达 99%,且不再区分上下文窗口长度。小米 MiMo 负责人罗福莉随后在 X 平台发文,解释这次降价背后的技术原因。
罗福莉表示,MiMo 的原始推理成本远低于行业平均水平,新价格「基本可以维持收支平衡」。她把原因归结为模型和系统两侧:模型本身在推理效率上做了压缩,后端服务也通过工程优化降低了单位 token 成本。
罗福莉强调,MiMo-V2.5 不再按上下文窗口长度区分价格,意在把长上下文使用门槛拉低,让开发者更容易在实际应用里试用。值得关注的是,罗福莉在帖文中还建议同行不要「盲目降价」:
我们之前建议 LLM 公司不要「盲目降价」,正是因为很少有模型架构和推理优化能够阻止 API 成本在亏损情况下运行。
她认为,MiMo 的低成本源于特定的架构设计与推理优化能力,若其他公司不具备类似基础,盲目跟进可能导致亏损。
她还从更宏观的角度阐述了这一逻辑的产业意义:价格合理、高性能的模型 API 将推动真正规模化的推理需求,进而带动芯片、服务器、液冷、供电及数据中心等 AI 基础设施链加速发展,形成行业良性循环。
( @APPSO)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
作者提示: 个人观点,仅供参考