路透社:2026 年将迎来智能体语音交互爆发;Traini 融资 5000 万元:解析宠物叫声与行为,实现人犬实时对话丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@瓒an、@鲍勃
01 有话题的技术
1、Meta 斥资数十亿美元收购 Manus,创始人肖弘出任 Meta 副总裁
今天,Meta 以数十亿美元收购中国 AI 初创公司、AI Agent Manus 开发商蝴蝶效应,双方均发文官宣。这是 Meta 成立以来的第三大收购,仅次于 WhatsApp 和 Scale AI。
交易完成后,蝴蝶效应将保持独立运营,创始人肖弘将出任 Meta 副总裁。
另据《晚点 LatePost》报道,收购谈判在十余天内迅速完成。在 Meta 提出收购前,蝴蝶效应正以 20 亿美元估值进行新一轮融资。真格基金合伙人、蝴蝶效应天使投资人刘元表示,谈判速度之快令人一度怀疑「是不是一个假的 offer」。
最终,Meta 创始人兼 CEO 马克·扎克伯格提出的条件与愿景打动了创始团队,扎克伯格本人及多位高管也是 Manus 的忠实用户。
此次收购是 Meta 推进其「超级智能」战略的重要一步。今年 7 月,扎克伯格在公开信中表示,Meta 拥有庞大的基础设施和专业能力,有意愿也有能力将新技术推向数十亿用户。
同期,Meta 向顶尖 AI 研究者开出上亿美元年薪,并重组 AI 团队。
蝴蝶效应成立于 2022 年,创始人肖弘毕业于华中科技大学,曾开发微信公众号排版工具壹伴和企业微信插件微伴。
公司首款产品为浏览器 AI 插件 Monica,提供聊天、搜索、写作等大模型功能,成为中国少数实现盈利的 AI 产品之一。
2024 年初,字节跳动曾出价 3000 万美元试图收购蝴蝶效应。2024 年,90 后连续创业者季逸超与产品经理张涛加入蝴蝶效应,共同开发出 Manus。该产品于今年 3 月上线,具备调度多工具解决复杂问题的能力,迅速引发中外关注。12 月中旬,Manus 宣布其年度经常性收入(ARR)突破 1 亿美元。
收购前,蝴蝶效应共完成 4 轮融资,投资方包括真格基金、红杉中国、腾讯、Benchmark Capital 及多位中美科技创业者。
真格基金管理合伙人戴雨森表示,Manus 已成为中国新一代创业精神的象征,「不靠关系,不比资历,在全球舞台上光明正大同台竞技」。
(@APPSO)
2、Resemble AI 开源 Chatterbox Turbo:支持副语言情感标签,推理速度提升 6 倍
初创公司 Resemble AI 在 MIT 协议下开源了名为 「Chatterbox Turbo」 的文本转语音模型。这款模型在性能上实现了显著突破,仅需五秒钟的参考音频即可精准克隆目标语音,并在短短 150 毫秒内输出首个音频片段。
这种极致的低延迟表现,使其成为构建实时 AI 代理、自动化客户支持、动态游戏角色、虚拟形象以及社交平台交互的理想选择。Resemble AI 声称,该模型在语音质量上已超越现有闭源竞品,能为开发者提供更自然的合成体验。
在安全合规方面,Chatterbox Turbo 针对受监管行业内置了名为 「PerTh」 的神经水印功能,可用于验证语音的 AI 生成身份,有效应对深度伪造风险。
目前,Resemble AI 已同步提供托管服务,并计划在近期推出进一步优化延迟的版本,旨在通过开源生态重塑语音合成市场的竞争格局。
Huggingface :
https://huggingface.co/spaces/ResembleAI/chatterbox-turbo-demo
GitHub:
http://github.com/resemble-ai/chatterbox
(@Resemble AI @X、@AIBase)
3、alexkroman 开源 「Tiny Audio」:支持 24 小时内完成 ASR 训练,单卡成本仅约 12 美元
「Tiny Audio」是一个极简、可定制的 ASR 模型训练框架,旨在打破高门槛的语音模型构建流程。它通过「冻结端到端,仅训练连接层」的方案,允许开发者在单张 A40 GPU 上、24 小时内训练出具备专业性能的语音识别系统。
混合模型架构: 采用「OpenAI」的 Whisper-large-v3-turbo 作为音频编码器(负责语义提取),配搭 Hugging Face 的 SmolLM3-3B 作为文本生成后端。
高效投影层训练: 系统仅对中间的 MLP(多层感知机)投影层进行参数更新。该层利用 1D 卷积进行 4 倍下采样压缩,将 1280 维的音频嵌入高效映射至 2048 维的 LLM 空间。
25,000 小时训练数据集: 默认基于 LoquaciousSet 语料库,涵盖 CommonVoice、VoxPopuli 等多源数据,支持多语调、多环境的语音识别场景,实测词错率(WER)可达 12.14。
多架构实验支持: 代码库仅约 1000 行,但原生支持 MLP、MoE(混合专家模型)、SwiGLU 和 Residual 等多种投影层架构的快速切换与实验。
目前该项目已在 GitHub 以 MIT 协议完全开源。开发者可通过 Poetry 环境快速部署,模型权重与在线 Demo 已同步至 Hugging Face。
GitHub: https://github.com/alexkroman/tiny-audio
(@GitHub)
4、上海交大 X-Lance 实验室开源 X-Talk:基于纯 Python 的全双工语音交互框架,实现亚秒级可中断对话
X-Talk 是一款开源的全双工级联口语对话系统(Spoken Dialogue System)框架,采用纯 Python 编写的生产级架构。它通过事件驱动机制解决了实时语音交互中的高延迟与不可中断问题,支持开发者快速构建类似「GPT-4o」体验的交互式智能体。
异步事件总线架构: 核心基于 Event Bus 实现 ASR、LLM、TTS 及 VAD 模块的松耦合通信,所有图层通过异步发布/订阅模式交互,支持复杂的对话状态管理与流式数据并发处理。
全双工可中断机制: 系统原生支持用户在机器人说话时随时打断(Interruptible),通过前端 VAD 监测与后端信号处理,确保语音流的即时响应与上下文同步,提升交互的自然度。
多模型插槽化集成: 框架预设 ASR、TTS、Captioner、Speaker Encoder 等多种接口 Slot。目前已适配 SenseVoice、IndexTTS、CosyVoice、GPT-SoVITS 等模型,并支持通过 4-bit 量化的 Qwen3 系列模型在单张 4090 显卡上实现低延迟推理。
生产级 API 与部署: 采用后端纯 Python + 前端 WebSocket 的通信方案,兼容从 Web 浏览器到边缘设备的部署场景。深度集成 LangChain 框架,支持「智能体」在对话中调用网页搜索、本地检索及情感/音色控制工具。
文档理解与 RAG 支持: 内置 langchain_openai 嵌入接口,支持通过 OpenAIEmbeddings 对上传的文档进行实时索引与向量搜索,增强对话系统的专业领域知识。
项目采用 Apache 2.0 协议开源,支持 pip install 快速安装。开发者可通过官方提供的 configurable_server.py 结合阿里云 API 或本地模型(如 SenseVoiceSmallLocal)进行快速部署。
API:
https://bailian.console.aliyun.com/?tab=model#/api-key
GitHub:
https://github.com/xcc-zach/xtalk.git
(@GitHub)
02 有亮点的产品
1、Traini 获超 5000 万元融资:解析宠物叫声与行为,实现人犬双向的实时拟人化对话
硅谷宠物情感智能公司「Traini」完成超 5000 万元人民币融资,由 Banyan Tree、Silver Capital 等领投,Nvidia 及 Anthropic 技术高管参投。公司同步发布了全球首款认知型宠物穿戴设备,利用自研多模态模型解析宠物叫声与行为,实现人犬双向的实时拟人化对话。
PEBI 多模态交互引擎:核心接口支持文本、图像、视频、音频的并发处理,通过解析近 120 个犬种的叫声声谱与肢体动作,将宠物意图转化为人类语言,情绪识别准确率最高达 94%。
Valence–Arousal 三维情感向量系统:基于 900 余项动物行为研究及 200 万只犬类数据,该系统融合了叫声、心率、体温及肢体活动等生命体征,构建出实时的瞬时情绪画像,支持早期健康征兆预警。
基于 Transformer 的 PPI 架构:自研的宠物感知交互(Pet Perception Interaction)系统具备实时感知、自适应推理与反馈生成能力,并引入「即用即训」机制,通过匿名化交互数据构建动态演进的行为数据集。
T-Agent 自主决策系统:基于其 PetGPT 自然语言行为分析模型,T-Agent 可根据犬只的真实生理与情绪需求自主触发服务推荐,使宠物从被动受众转变为消费决策者。
开放 API 与生态集成:Traini 已向兽医诊所及硬件 OEM 开放接口,并与主流智能手机、电动汽车品牌建立合作,支持将「翻译结果」接入手机 OS 操作系统或车载娱乐系统。
认知智能项圈已通过 「Traini」 应用及官网开放预订;API 接口已面向医疗机构及硬件开发者开放。
(@AING 硬迹、@36 氪)
2、3999 元!闪极 loomos AI 眼镜 S1 发布:整机 29 克全球最轻
12 月 30 日消息,在昨晚的闪极与中国航母联名发布会中,闪极 loomos AI 显示眼镜 S1 正式发布,定价为 3999 元,将于 2026 年第三季度开售。
这款眼镜将「轻量化」做到极致:官方称该产品「可能是全球最轻的 AI 眼镜」,整体重量 29g,体感重量仅 15 克。
发声系统采用 0.02cc 超小体积硅基芯片扬声器,实现眼镜专用的轻量化音频方案。结合柔性弧形前框的 0°-15°可调面弯,兼顾佩戴舒适度与适配性。
功能层面,S1 搭载「蜻蜓光擎」技术,通过单光机双目异显实现真 3D 显示;AI 能力支持全天音频感知、主动意图识别,可对关键事项实时提醒。
镜腿采用可拆卸换电设计,进一步解决智能眼镜的续航痛点。官方还为其推出了闪极增程环颈环移动电源,号称充满一次够用一个月。
(@快科技)
3、Jetty Health 发布 AI 慢性病管理智能体:主动电话用户询问健康状态
Jetty Health 推出针对慢性病管理的 AI 智能体,通过主动语音外呼技术解决患者记录依从性低的问题。该产品利用 LLM 将非结构化对话转化为结构化健康洞察,旨在替代传统的手动日志录入。
主动式语音交互(Proactive Voice Engagement):系统可每日定时向用户发起语音通话,通过主动询问获取健康状态,消除用户手动开启 App 记录的认知负荷与操作阻碍。
非结构化数据捕获(Unstructured Data Capture):基于 NLP 技术,将用户的自然语言叙述自动解析为症状严重程度、持续时间及潜在触发因素等结构化数据。
自动化模式识别(Pattern Recognition):算法层实时聚合多维度对话数据,自动识别症状波动的周期性规律及与生活环境的关联性。
临床共享接口:支持将 AI 整理的长期病程摘要导出,在诊疗现场为医生提供具备时序逻辑的临床参考证据。
已上线 iOS App Store,处于 Beta 测试阶段,采取小规模邀请制开放。
(@omooretweets @X、@Jetty Health)
4、Zoom 发布 Realtime Media Streams (RTMS):原生 WebSocket 接入音视频流,实现无 Bot 化实时 AI
Zoom 推出 「Realtime Media Streams」(RTMS) 功能,允许开发者通过原生 WebSocket 直接获取会议的音频、视频及转录数据流。该方案无需部署模拟机器人(Bots),配合 「Inworld Runtime」 等 AI 编排引擎,可在会议期间实现低延迟的实时分析与反馈。
无 Bot 化的原生流接入:弃用传统的「虚拟客户端」入会模式,改用 WebSockets 协议直接推送加密媒体流,大幅降低了服务器计算开销和部署复杂度。
多模态并行处理架构:支持同步运行 Guidance(LLM 实时辅导)、Evaluation(专业度评分)及 Visual Evaluation(基于视频帧的视觉分析)三大独立工作流。
低延迟 AI 编排集成:深度集成 「Inworld Runtime」,支持将 AI 管道转化为可组合的图(Graphs),示例配置采用 `Groq gpt-oss-120b` 模型以优化推理响应速度。
细粒度权限管控:通过 `meeting:read:meeting_transcripts` 和 `meeting:read:video_streams` 等 Scopes 进行权限隔离,确保数据调用的合规性。
应用案例:
实时销售教练:基于转录流进行 LLM 语义分析,在侧边栏实时推送针对客户异议的应对策略。
合规性实时审计:通过音频流实时检测受限术语,触发即时告警以规避法律风险。
视觉呈现优化:通过定时抓取视频帧(Frame Capture)分析构图与光照,为演讲者提供实时环境反馈。
增量式会议纪要:改变「会后总结」模式,在会议进行中通过增量数据实时生成并修正待办事项。
(@Zoom Developer Blog)
03 有态度的观点
1、路透社:2026 年将迎来「智能体」原生语音交互爆发
语音交互正从基于规则(Rule-based)的陈旧架构向基于大语言模型(LLM)的生成式架构转型。随着 Amazon 和 Apple 等巨头完成底层技术更替,语音「智能体」将摆脱机械式反馈,实现具备语境感知能力的长文本对话,预计 2026 年将成为个人 AI 助理的真正普及元年。
交互架构重构:从「关键词触发」转向「端到端语义理解」:传统的语音助手(如旧版 Alexa、Siri)依赖预设的逻辑树和规则匹配,导致处理复杂指令时极为僵化;新一代系统由 OpenAI 的 ChatGPT 或 Anthropic 的 Claude 等模型提供推理支持,可实时处理非结构化信息并理解上下文。
硬件存量激活:6 亿台 Alexa 设备作为潜在入口:截至 2025 年初,全球已有 6 亿台支持 Alexa 的设备,这一庞大的分布式硬件网络将成为 LLM 落地物理世界的最直接载体。
自然语言合成性能突破:彻底告别「机械音」:借鉴「OpenAI」GPT-4o 等多模态模型的语音生成能力,语音「智能体」的延迟将大幅降低,并具备情感表达与语调起伏,向电影《Her》中的 Samantha 式体验靠近。
交互界面转移:从屏幕向可穿戴设备和可听设备(Hearables)迁移:随着语音交互体验的成熟,用户的交互中心将从智能手机屏幕转向以 AirPods 为代表的耳塞类硬件,实现全天候、低侵入式的 AI 陪伴。
相关技术正在从实验阶段转向大规模部署,预计 Apple 与 Amazon 将在 2025-2026 年间的年度发布会上推出基于自研/合作 LLM 的重构版系统。
(@Reuters Breakingviews)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
作者提示:个人观点,仅供参考