阿里发布实时交互模型 Wan-Streamer:边听边看边思考边说话,实时生成视频回应丨日报

开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@koki、@鲍勃
01 有话题的技术
1、HojoAI 开源40M/80M 小参数端侧模型,支持免 GPU 部署
HojoAI 开源了轻量级商用 TTS 模型家族 Hojo-TTS-Light,包含 80M 与 40M 两个参数版本。该系列基于 Token-LM 架构与 FSQ 技术,在极低参数量下实现了接近 0.6B 大模型的音质表现(Seed-TTS 评测集 DNSMOS 平均分大于 4.0)。模型支持原生中英双语与 ONNX 导出,允许开发者在无需 GPU 的普通 CPU 或边缘设备上,进行低延迟的本地语音合成与少样本音色克隆。
40M/80M 极低端侧计算开销:核心语言模型参数量被压缩至 80M 与 40M,在 Seed-TTS 评估集上取得平均 DNSMOS 大于 4.0 的成绩,解决了小模型常见的音色变薄、尾音发干等音质退化问题。
Token-LM 架构与 FSQ 语音量化:模型采用 Token-LM 路径,通过 18M 编码器与 30M 解码器构建语音分词器;引入 FSQ 提升离散 Token 编码效率,将音频码本限制在 8000 规模(整体码本小于 20000),实现了 50Hz Token 速率下的稳定发声。
80M 样本音色克隆与拼音纠音控制:80M 版本支持仅凭 3-5 秒参考音频进行音色克隆;系统支持直接通过拼音对多音字、地名、人名等特定词汇进行硬性发音修正,规避 ToB 与 ToG 业务场景下的读音错误。
40M 极致轻量版内置 15 种音色:40M 版本语言模型参数降至 40M,内置 2 个中文音色和 13 个英文音色,在进一步压缩参数的同时,完整保留了原生中英双语无缝合成能力。
全栈 ONNX 支持与免 GPU 部署:提供 KV cache 合并优化后的 ONNX 导出包,支持在纯 CPU、普通 GPU 及各类嵌入式边缘设备上高效运行,扫平了高频对话与端侧智能体的商用部署壁垒。
原生 ONNX 导出与零 GPU 部署:模型原生支持导出为 ONNX 格式,摆脱了对云端重型 GPU 算力的依赖,可直接运行在普通 CPU、车载边缘硬件或端侧智能体中。
GitHub:
https://github.com/HojoAI/Hojo-TTS-Light
Hugging Face:
https://huggingface.co/HojoAI/Hojo-TTS-Light-40M
(@Hojo 恒聚愿景)
2、阿里发布 Wan-Streamer v0.1:面向实时交互的流式端到端模型,边听、边看、边思考、边说话,并实时生成视频回应
阿里 Wan 团队发布了实时交互端到端多模态模型 Wan-Streamer v0.1。该模型通过单一 Transformer 统一建模文本、音频与视频流,实现了全双工流式输入输出,将模型侧响应延迟降至约 200ms,为高实时性音视频智能体提供了全新架构。

单 Transformer 统一架构与块因果注意力:将文本、音频和视频统一进行 Token 化表征并写入同一个因果序列。利用块因果注意力机制实现增量流式生成,生成的音视频实时写回上下文,以维持交互过程中的身份、表情与节奏一致性。
全双工流式交互:舍弃了传统的「语音识别 大语言模型 语音合成 驱动口型」的分阶段流水线链路。支持在输出音视频的同时,持续接收、理解用户的视觉与听觉反馈,并可根据中途干扰动态调整后续回应。

Thinker-Performer 双 GPU 协同部署:在硬件部署上采用双部分并行架构。Thinker 负责轻量化的感知、理解与状态维护,Performer 负责高负载的音视频生成,通过将输入感知、上下文更新与音视频解码进行流水线重叠执行,极大地压缩了计算耗时。
200ms 模型级响应与 25 FPS 输出:模型侧延迟缩短至约 200ms,结合网络传输后的总交互延迟控制在 550ms 左右,视频输出帧率达到 25 FPS。
初期版本规格限制:当前 v0.1 版本的 Demo 视频分辨率仅为 192p,且项目页目前主要以预录模型输出进行展示,尚未开放高分辨率的实时在线交互测试。
论文:
https://arxiv.org/html/2606.25041
项目页:
https://wan-streamer.com/
(@wan-streamer)
3、Together AI 联合斯坦福评测主流实时语音智能体:普遍存在「情感智能缺口」,120 次决策中 119 次忽略语音语气仅依文本行动
当来电者的话语和表达方式不一致时,实时语音系统会采信话语的内容。有个拨打 911 的来电者一直在哭泣,但坚称自己没事,而 GPT Realtime 2 却结束了这次通话。
Together AI 与斯坦福大学研究人员发表最新预印本论文,评测了 OpenAI、谷歌、阿里巴巴旗下的 4 款主流实时语音智能体在文本内容与语音语气冲突时的决策表现。研究发现,这些系统在 120 次多轮对话测试中,有 119 次完全忽略了声音中的哭泣、恐惧和反讽等关键情感特征,仅依据字面转写文本进行决策。这种感知与行动脱节的现象被研究者定义为语音人工智能的「情感智能缺口」。
决策完全由字面文本主导:在三个测试场景中,模型几乎全部做出错误决策。在 911 报警场景中,面对哭泣但口头坚称「没事」的来电,所有系统均选择挂断电话(100% 失败率);在银行转账场景中,面对极度恐惧但口头授权转账的电话,除 GPT Realtime 2 拒绝了 1 次外,其余模型全部批准转账;在志愿者招募场景中,面对极其反讽的口头同意,所有模型均判定为真诚同意并予以注册。
情感智能缺口显著:单轮诊断测试证实,这并非由于模型的音频感知能力不足。在被直接询问说话者情绪时,GPT Realtime 2、Gemini 3.1 Flash Live 和 Qwen3.5 Omni Plus 均能准确识别出音频中的恐慌、哭泣或反讽状态,但在进入实际决策步骤时,这些感知到的声学特征被系统直接忽略。
属性识别受文本偏见干扰:当声学特征与文本语料冲突时,系统表现出对文本的盲信。例如,当老年人阅读儿童剧本时,多数系统直接判定说话者为儿童;当带有特定英语口音(如印度、法国口音)的说话者朗读关于其他国家(如意大利、日本)的文本时,除 Qwen3.5 Omni Plus 能部分还原真实口音外,其余模型均受文本干扰,直接将文本提及的国家判定为说话者的口音来源。
模型间表现存在差异:在情感感知层面,Qwen3.5 Omni Flash 是唯一无法有效感知测试音频中情绪与反讽特征的模型;在年龄和口音诊断中,Gemini 3.1 Flash Live 展现了相对较好的鲁棒性,在 8 次测试中有 3 次成功识别出老年人的真实声学特征,未被文本完全误导。
论文:
https://arxiv.org/abs/2606.26083
GitHub:
https://github.com/bartelds/real-time-voice
( @BarteldsMartijn@X、@GitHub)
02 有亮点的产品
1、SpeakON 取消 10 美元/月 Pro 订阅:推行 129 美元硬件买断制,AI 语音功能全面免费

AI 语音转文字硬件厂商 SpeakON 宣布永久取消每月 10 美元的 Pro 订阅计划,向所有硬件购买者免费开放全部 AI 功能。已订阅的老用户将获得按比例退款,此举旨在解决硬件买家对「二次订阅付费」的认知失调,通过「硬件买断」降低用户激活与留存门槛。
硬件规格与离线同步:SpeakON 是一款重 25g 的 MagSafe 磁吸录音配件,搭载独立麦克风并支持单键物理录音,单次最长录制 5 分钟。设备支持无 Wi-Fi 环境下离线录音,并在重新连接后自动同步至云端。
跨应用免剪贴板交互:通过 iOS 键盘扩展,系统可在邮件、备忘录等任何第三方应用文本框内直接将录音转化为文字输出,消除了跨应用复制粘贴或手动切换键盘的交互摩擦。
收费模式及额度调整:商业模式由「129 美元硬件 +10 美元/月订阅(年付 89 美元)」调整为 129 美元一次性硬件买断。无硬件用户仍可免费使用 iOS 键盘扩展,但 AI 功能限额为每周 2000 词。
AI 核心功能底座:免费开放的 AI 功能包括自动填词、4 种输出语调调节、多语言翻译、语音指令修改文本及自定义词汇库,底层依赖云端 ASR 与 LLM 提供支持。
后续增值变现路径:虽然基础语音转文字及格式化功能全面免费,但 SpeakON 计划未来针对 Snap Notes 自动结构化笔记、语音触发智能体任务等高阶新增功能另行收费。
(@AING 硬迹)
2、Kimba 完成 650 万美元种子轮融资:推出首款 AI 自适应闭环香氛睡眠干预设备,临床认知表现提升 21%


睡眠科技公司 Kimba 宣布完成 650 万美元种子轮融资,由 Selva Ventures 领投。本轮资金将用于其 AI 自适应香氛睡眠干预系统的商业化落地。该系统利用嗅觉通路直接连接边缘系统且无需通过丘脑中转的神经科学原理,在不唤醒大脑皮层的前提下,通过实时生理监测与算法闭环,在夜间自动释放特定气味脉冲,从而优化深层睡眠质量。
多源生物特征监测与穿戴生态联动:硬件设备内置传感器,可实时采集用户的呼吸节律、肢体活动、HRV 以及压力指标;同时兼容并接入 Whoop、Oura、Apple Watch、Fitbit、Garmin 等主流穿戴设备的数据画像,构建完整的睡眠生理特征模型。
自适应 AI 闭环控制算法:系统实时分析多源生理数据,动态评估当前的睡眠阶段与修复效率。在夜间关键睡眠节点,算法会自动触发并精确控制床头设备释放短时、靶向的气味脉冲,而非传统香薰机的持续释放。
多舱水性香氛智能配方推荐:床头设备可内置 3 支可更换的水性植物萃取香氛胶囊(目前提供 12 种基础配方)。系统算法会根据用户的实时睡眠数据表现,每三个月自动调整一次香氛浓度、成分组合与释放时机的定制化推荐。
临床验证的认知提升数据:50 名参与者连续 48 晚的初步临床测试数据显示,在有特定嗅觉刺激的夜间,参与者的后期认知表现(包含记忆力、运动功能和注意力)提升了 21%,86% 的参与者报告睡眠质量得到改善。目前团队正在推进基于 PSG 评估的临床研究。
(@AING 硬迹)
3、上海交大团队 Auren 推出 50g 宠物第一视角 AI 穿戴设备:自研 Always-Sensing 架构与多模态行为模型

上海交通大学团队研发的 AI 原生宠物穿戴设备 Auren 计划于今年 8 至 9 月在北美启动众筹。该设备重 50g,采用宠物第一视角 POV 进行 7×24 小时连续数据采集,通过端侧与云边端协同架构,自动过滤无用信号并生成高光行为片段与情感健康档案。
50g 轻量化硬件集成多维传感器:在 50g 极限重量下,集成视频、音频、惯性测量单元(IMU)与 GPS 传感器,支持全天候第一视角多模态数据采集,消除传统固定摄像头与第三视角监控的物理盲区。
自研 Always-Sensing 架构与端侧处理:该架构攻克了传统设备 Always-On 带来的高功耗瓶颈,通过端侧数据处理和智能过滤机制降低无效数据冗余,同时保障端侧数据隐私安全。
多模态宠物行为与情绪特征库:构建了专属宠物行为模型与场景识别体系,交叉比对画面抖动频率、IMU 动作幅度、麦克风声学特征及 GPS 轨迹,量化判定宠物的活动偏好、同伴社交、分离焦虑等状态,避免无依据的叫声语义翻译。
「1%高光提取」与底层完整记录双轨并行:AI 算法自动筛选出兼具社交与警报价值的高光片段(如新场景、异常叫声、玩耍跑动);其余静息、睡眠等长周期健康指标数据则在底层完整沉淀,为后续数字健康与远程医疗奠定数据基础。
(@后浪 new)
03 有态度的观点
1、 Anthropic 报告:越依赖 AI 自动完成任务,对职业前景越乐观

最常把任务整个交给 Claude 的用户,反而是对自身职业前景最乐观的一群人。这是 Anthropic 不久前发布的《Anthropic Economic Index》六月报告中给出的调查结论。
报告将用户的使用方式区分为「自动化」和「增强」两种模式。前者指用户倾向于一次性将完整任务交给 Claude 执行,几乎不做中间干预;后者则是人机反复迭代、共同完成任务。
报告将薪资预期、工作安全感、找到新工作的能力、工作意义、自主性和人际互动六个维度的预期变化与用户自动化使用比例交叉分析后发现,自动化使用比例越高的受访者,在这六个维度上对 AI 影响的预期均更为正面。其中,对薪资提升和找工作能力的乐观程度差距最为明显。
报告还记录了另一个与「委托导致技能退化」这一常见担忧相悖的数据:重度委托用户认为自身技能市场价值上升的比例,随自动化使用比例的增加而升高;但「使用 AI 后学到更多」这一指标则在不同使用程度的人群中基本持平,未见明显差异。
Anthropic 承认,这一关联存在选择效应的可能——即本就对 AI 最积极的人,也更愿意把任务完整交出。报告在控制用户注册时长(作为早期采用者热情程度的代理变量)后,上述正向关联依然成立,但研究者表示无法完全排除这一解释。
报告全文:
anthropic.com/research/economic-index-june-2026-report
( @APPSO)
04 社区黑板报
招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)
1、活动推荐|当数据的头号消费者变成 Agent:七位开源 AI 数据一线决策者,北京见

这不是一场产品发布,而是一场一线技术决策者之间的对话。台上的人,分别在不同的位置上真刀真枪地解决「Agent 时代的数据底座」这个问题:
做 统一元数据 / 开放数据协议 的开源创业者(Datastrato)
把开源数据底座 跑在央企级生产环境 里的工程负责人(中国移动)
在 数据库内核 里重新定义「Agent 数据底座」的技术专家(OceanBase)
还有三位 开源数据基础设施公司的创始人 / CEO(白鲸开源、SelectDB、Datastrato),以及一位来自硅谷的 前 Apple 数据平台负责人 同台圆桌
一个下午,你能一次性听到开源、企业、数据库、创业四个视角对同一个问题的不同答案。
时间:2026 年 7 月 4 日(周六)13:00 入场签到,13:30 正式开始
地点:北京市海淀区 中关村创业大街 12 号楼五层 多功能厅
形式:线下技术分享 + 圆桌,免费参加(需审核通过)
报名:扫码或点击填写报名问卷 → https://hdxu.cn/1Kcpx

——烦请认真完善填写,报名超出场地容量时将按匹配度筛选

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
作者提示: 个人观点,仅供参考