AI 仿生毛绒宠物 Walulu 完成数千万元融资;网易有道开源 Confucius4-TTS:零样本生成无口音跨语种语音丨日报

图片


开发者朋友们大家好:


这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。



本期编辑:@koki、@鲍勃


01 有话题的技术


1、网易有道推出 Confucius4-TTS:基于 Speech Encoder+LLM 架构,支持 14 种语言免文本零样本声音克隆

图片


网易有道推出基于「语音编码器+大语言模型」架构的文本转语音(TTS)系统Confucius4-TTS。该系统实现了 14 种语言的零样本跨语种声音克隆与情感迁移。开发者无需提供参考音频的文本标注,即可生成音色统一、无母语口音且具备自然情感的跨语种语音。


  • Speech Encoder + LLM 架构:采用语音编码器级联大语言模型的系统架构,支持跨语种音色与情感的高保真重建。

  • 免文本参考克隆(Unconstrained Voice Cloning):克隆过程无需参考音频的文本标注(Reference Transcript),降低了推理阶段的数据准备门槛。

  • 14 国语种零样本无口音迁移:支持中、英、日、韩、德、法、意、西、俄、葡、泰、印尼、马、越 14 种语言,可在无额外训练的情况下,实现消除母语口音(Unaccented)的跨语种语音合成。

  • 无损情感迁移(Seamless Emotion Transfer):在克隆音色的同时,支持将参考音频中的情绪起伏、语气语调同步迁移至生成的跨语种语音中。

  • 多维度基准测试验证:在 CV3-eval Cross-lingual、X-Voice Benchmark、Seed-TTS-eval 以及 MiniMax-Multilingual-Test 等多个行业测试集上完成了零样本性能评估。


https://huggingface.co/netease-youdao/Confucius4


https://github.com/netease-youdao/Confucius4-TTS


试用链接:

https://confucius4-tts.youdao.com/gradio


( @GitHub)



2、Neocambrian AI 成立:构建机器人第一人称与操作轨迹数据集,解决物理 AI 具身训练数据瓶颈


针对具身智能与 Physical AI 领域缺乏类似互联网规模物理行为数据集的瓶颈,新创公司 Neocambrian AI 宣布成立。该公司旨在利用印度的劳动力红利与非结构化物理环境多样性,构建标准化的物理 AI 数据收集与标注管线,向全球机器人实验室输出高质量的第一人称视角(Egocentric)视频及工具操作轨迹等人类演示(Human Demonstration)数据


  • 演示数据取代网络爬虫成为物理 AI 瓶颈:不同于可通过互联网公开文本直接训练的语言模型(LLM),机器人基础模型的训练极度依赖物理演示数据。机器人无法通过单纯的文字或图像理解物理世界,必须通过高精度捕获人类动作(如手部运动、工具位移、受力反馈、错误修正等)来学习复杂的物理交互逻辑

  • 多模态操作轨迹与第一人称数据采集:Neocambrian AI 聚焦于采集第一人称视角(Egocentric)视频、通过类似通用操作接口(UMI)设备记录的手持工具操作轨迹(Manipulation Trajectories),以及通过远程操作(Teleoperation)控制实际机器人的示教数据。其核心任务是将分布式的人类物理劳作转化为机器可读的结构化时序数据集。

  • 环境多样性(Environmental Diversity)转化为泛化信号:为解决机器人从实验室到现实环境的泛化难题,Neocambrian AI 利用印度境内的大量非标准、非结构化物理环境(如高动态范围的工厂、小作坊、尘土覆盖的维修站、密集仓库等)进行数据采集,将现实物理环境中的噪声和无序状态转化为机器人模型训练的强鲁泛化信号。

  • 构建物理世界「人类在环」(Human-in-the-loop)工程管线:Physical AI 的数据收集并非简单的视频录制,Neocambrian AI 正在构建一套涵盖人员招募、硬件传感器同步(相机与追踪器时钟对齐)、任务设计、数据脱敏、质量保证(QA)及隐私合规的工业级数据生产管线,将物理动作的采集流程标准化与规模化。


( @kukreja_abhinav@X) 





02 有亮点的产品


1、影石发布 Mic Pro AI 麦克风:彩色墨水屏自定义交互,集成双档 AI 降噪与三麦阵列

图片


图片


影石 Insta360 正式发布旗舰级 AI 无线领夹麦克风 Mic Pro,该设备定位为新一代 AI 智能录音硬件。产品在搭载 1.22 英寸首创彩色墨水屏的同时,核心内置 AI 降噪芯片与智能收音算法,支持双档 AI 环境降噪、时间码自动同步及 32GB 本地备份,上线首日即在消费端售罄。


  • 端侧 AI 双档降噪算法:机身内置 AI 语音处理芯片,提供两档可调 AI 降噪模式,通过算法实时识别并滤除持续性环境杂音,同时支持智能音色补偿与自动增益调节。

  • 三麦阵列与四种智能收音模式:采用三麦克风阵列硬件方案,算法支持 4 种拾音模式切换,可自动匹配单人近距、双人访谈、大范围环境等不同声学场景。

  • 1.22 英寸六色墨水屏交互:行业首创彩色圆形低功耗墨水屏,支持用户通过 App 自定义屏幕图片与标识,在多机位/多 AI 录音设备协同作业时,实现硬件级物理标识与个性化视觉定制

  • AI 录音设备生态定位差异化:相比安克(Anker)录音豆(深度绑定飞书 AI 会议转写与声纹识别)、讯飞会议耳机(主打端侧 AI 多语种翻译),影石 Mic Pro 与 DJI Mic 3 聚焦于「高质量音视频收音」场景,通过 AI 算法提升信号信噪比,规避了传统办公 AI 录音设备对文本转写生态的过度依赖

  • 32GB 独立存储与多机位对齐:发射器自带 32GB 存储,支持独立内录备份;内置时间码同步功能,支持多麦克风智能编组,解决多机位视频后期剪辑时的音频对齐问题。


(@新智独角兽)



2、雨之灵动完成数千万元融资:AI 仿生毛绒宠物Walulu 搭载 4 组舵机及 WiFi 连接

图片


图片


成都雨之灵动科技有限公司(以下简称「雨之灵动」)宣布完成数千万人民币的天使轮及 Pre-A 轮融资,投资方包括科大讯飞、4399、KK 集团及某知名财务投资机构。目前该产品已实现全平台日销 500 件。


  • 内置 4 组舵机与 4000mAh 电池:Walulu 售价约 599 元,采用毛绒玩具形态,支持 WiFi 连接与触摸感应,内置 4000mAh 电池与 4 组物理舵机,可执行 60 多种肢体交互动作,并搭载大模型实现语音交互

  • IP 前置运营与全平台日销 500 件:在产品发布前,团队通过「小猫软软」短视频矩阵完成百万级曝光和冷启动,首批 300 台产品 3 日内售罄,目前日销 500 件,月增长率保持在 15%-25%。

  • 规划挂件版与电子屏 2.0 版本:雨之灵动正在开发更轻量、低定价的挂件版 Walulu,并计划在后续的 2.0 版本中为产品配备电子屏眼睛以增强表情交互


(@多知)



3、Twilio 整合 Deepgram 提供语音智能体基础设施,AI 业务营收占比 12% 支撑 4.6 倍远期市销率估值

图片


云通信巨头 Twilio 通过整合第三方大模型提供构建、管理语音智能体的端到端基础设施,推动其语音业务营收同比增长 20%。这一 AI 概念促使 Twilio 股价年内飙升 36%,其远期市销率(Forward P/S)达到 4.6 倍,约为上市同行Sinch 和 Bandwidth 的两倍。然而,目前作为 AI 核心承载体的语音业务在 2025 年总营收中占比仅为 12%,公司近 60% 的营收仍依赖于低毛利的传统短信业务。


  • 端到端语音智能体(Voice Agent)基础设施:Twilio 自身不研发底层大语言模型(LLM),而是通过接入 Deepgram 等第三方模型,提供用于协调、追踪和分析多渠道客户互动的软件控制层,帮助企业简化定制化智能体的设计与合规管理。

  • 12% 语音营收占比与高毛利属性:2025 年语音业务占 Twilio 总营收的 12%,与 2024 年持平。虽然语音业务增速达 20%,但由于其毛利率显著高于需向运营商支付高额通道费的消息业务(占比近 60%),其增长对整体利润率的改善至关重要。

  • 按量计费(Usage-based)模式面临 AI 悖论:Twilio 采用按发送消息数和智能体通话时长(分钟)计费的商业模式。若 AI 智能体因效率提升而大幅缩短客户咨询的解决时长,可能会反向侵蚀 Twilio 基于使用时长的营收。

  • 定价与通道支持费率面临竞争蚕食:相比竞争对手 Infobip 采用的固定月费模式,Twilio 对客户支持服务按平台消息量百分比收取高额费用,正面临 Bird、Infobip 等低价替代方案以及合作伙伴 Sierra(在智能体应用层)的直接竞争。


(@Z Potentials)



03 有态度的观点


1、Gurman:Apple Watch 需要重启健康叙事

图片


彭博社记者马克・古尔曼 (Mark Gurman) 在 PowerOn 通讯中写道,Apple Watch 正面临 Whoop、Oura、Fitbit 等健康穿戴设备的更直接竞争,苹果需要重新梳理 Watch 和健康业务的产品节奏


报道提到,Apple Watch 已经从通知和运动记录工具扩展到心率、睡眠、助听、跌倒检测等健康场景,但近几代硬件更新幅度较小,新的健康传感器和服务化能力没有形成清晰的增长叙事。


与此同时,Oura 以戒指形态强化睡眠和恢复监测,Whoop 以订阅和高频身体数据服务留住核心运动用户,Google 也继续整合 Fitbit 能力。


古尔曼认为,苹果并不缺健康入口,而是需要让硬件、软件和健康服务更紧密地更新。其通讯还提到 iOS 27、AirPods 设置与健康功能可能在 WWDC 前后继续补强,Watch 业务会被放在更大的个人健康设备组合里重新定位。


( @APPSO) 


图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

作者提示: 个人观点,仅供参考

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    关键词
    // 相关帖子
    Coming soon...
    • 0
    AI 仿生毛绒宠物 Walulu 完成数千万元融资;网易有道开源 Confucius4-TTS:零样本生成无口音跨语种语音丨日报RTRTE_Dev_Comm