拾光记发布 AI 亲子语音记录器;Midjourney 跨界推出水下 3D 超声仪,成像快 MRI 百倍丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@koki、@鲍勃
01 有话题的技术
1、京东 JoyAI-VL 团队发布 JoyAI-VL-Interaction:开源 8B 级实时视觉-语言交互模型,端到端延迟低于 1 秒
京东 JoyAI-VL 团队开源了实时视觉-语言交互模型与系统 JoyAI-VL-Interaction。该项目基于 8B 参数规模,打破了传统的单回合「问答式」多模态交互限制,通过每秒自主评估视频流并决策动作,实现了低于 1 秒的多模态流式交互。
主动性决策机制:基于 JoyAI-VL-8B 视觉语言指令模型,将语音输入输出作为可插拔组件与核心模型解耦。模型每秒在「说话」、「保持沉默」或「委托任务」三者间进行自主决策,从而无需等待用户指令即可在突发场景(如火灾、跌倒)中主动预警。
AdaCodec 预测性视频编解码:系统集成 AdaCodec 算法,在处理实时长视频流时,对可预测的连续帧仅消耗极少 token,仅在画面发生显著变化时保留完整细节,有效控制了长会话部署中的 token 消耗增速与内存开销。
400 万时序对齐样本与强化学习:使用超 400 万个包含秒级行为标注(何时发声、何时保持沉默、何时调用外部工具)的时序对齐视频剪辑进行微调,并引入强化学习,使 8B 模型在未进行特定应用界面训练的情况下,涌现出了引导手机 App 购物等操作能力。
后台智能体协同委托:系统支持在面临复杂数字化任务时,由模型将子任务异步委托给后台智能体(如 OpenClaw 或 Claude Code)或外部 API,在等待结果返回的同时,前端模型继续保持对视频流的实时监测与交互。
时效性任务胜率优势:在包含监控、翻译、计数等 58 个事件驱动的交互测试中,该系统对阵豆包和 Gemini 的人评综合胜率分别达到 77.6% 和 87.9%,其中在监控告警、实时翻译和动态计数等高时效性场景中胜率达 100%。
https://huggingface.co/papers/2606.14777
https://github.com/jd-opensource/JoyAI-VL-Interaction/
( @wjqdev@X)
2、Midjourney 跨界发布水下全身 3D 超声扫描仪,成像速度比传统 MRI 快了整整 100 倍
AI 图像巨头 Midjourney 正式宣布进军医疗硬件领域,发布其今年计划推出的 8 个探索性项目之首:Midjourney Scanner(水下全身超声层析成像扫描仪)。该设备利用 50 万个微型声学换能器采集海量数据,通过 AI 进行 3D 重建与分割,在 60 秒内即可提供亚毫米级的全身医学影像,成像速度比传统 MRI 快了整整 100 倍。
核心特点
50 万通道传感器环与 TB/s 级数据流:扫描仪的核心是一个由 50 万个沙粒大小、兼具收发功能的硅基超声换能器组成的传感器环。设备工作时,每秒会产生 TB 级别的原始声学数据,实时流式传输至数千个节点的计算集群中进行处理。
60 秒全身 3D 逆向重构:利用声波穿过水、皮肤、脂肪、肌肉和骨骼等不同密度介质时的传播形变,AI 算法进行亚毫米级 3D 地图的逆向重构。用户只需通过升降平台浸入温水,60 秒内即可完成扫描,并支持 AI 实时语义分割。
1000 万美元极低研发成本:该系统在没有任何外部投资、年研发预算仅 1000 万美元的「极简」架构下实现了该系统的开发。其资金效率较传统医疗器械巨头、政府及前沿实验室实现了 40 至 100 倍的跨越式提升。
去医疗化的渐进式合规策略:第一阶段避开严苛的 FDA 诊断审批限制,仅作为无创的「身体成分图谱」设备进行商业部署,后续通过持续积累的真实世界测试数据,逐步向 FDA 申请正式的医疗诊断认证。
发布会参会者一手评价:
对标 iPhone 与 Tesla 的历史性首发:曾现场见证初代 iPhone 和特斯拉发布会的科技圈意见领袖 Robert Scoble 评价,这场发布会的震撼程度与前两者处于同一量级。
抗衰极客站台:硅谷知名抗衰先锋 Bryan Johnson 亲临现场力挺 Midjourney 创始人 David Holz。
硅基超声的「ChatGPT 时刻」:现场技术博主 swyx 指出,该系统标志着芯片级超声技术(如 Butterfly Network 路线)在重建算法上的重大突破。更好的科学始于更好的成像数据,廉价、高精度超声成像的普及将带来医学研究的数据大爆炸。同时,他质疑为何传统巨头、政府实验室在拥有巨大预算的情况下,无法实现同等量级的研发创新。
( @swyx @X、@midjourney)
3、Catnip.ai 发布 MaineCoon:22B 参数音频-视频双流 DiT 模型,实现单卡 47.5 FPS 实时流式生成
AI 创业公司 Catnip.ai 推出 22B 参数的实时自回归音视频基础模型 MaineCoon,该模型采用音视频双流联合生成的流式架构,在单张 H100 显卡上实现了 47.5 FPS 的推理速度(首帧延迟低于 1 秒)。通过引入智能体流式推理框架与自重采样训练,MaineCoon 解决了长视频流式生成的时序一致性与漂移问题,使高保真的人机音视频实时交互成为可能。
双流 DiT 联合流式架构:采用 48 层、约 21B 参数的双流扩散 Transformer 骨干网络。视频流通道宽度为 4096,音频流通道宽度为 2048,两者通过双向交叉注意力机制实现底层对齐,单次生成块仅需 4-NFE 去噪,无需「先渲染视频后配音」的传统管线。
极低延迟与多硬件兼容:首帧渲染延迟控制在 1 秒以内,端到端生成速度较 LiveAvatar、LTX-2.3 等同类系统提升 6.7 至 7.7 倍;单张 H100 推理速度达 47.5 FPS,单张 RTX Pro 6000 显卡可达 30 FPS。
智能体流式推理框架:引入由语言模型充当的「导演」与智能 KV 缓存管理器组成的运行时环路,支持 10 分钟以上的超长视频无缝流式生成,通过「前向修复」机制在未来帧和缓存中动态纠正画面和声音漂移,无需硬重启视频。
原生流式三阶段训练:第一阶段引入自重采样(Self-resampling)模拟不完美历史缓存,提升模型自愈能力;第二阶段利用 V-JEPA 与 REPA 进行特征对齐,加速结构与运动特征学习;第三阶段通过领域感知优先权蒸馏(ROPD)将对话、远景、对口型等多领域专家策略融合成单一流式策略。
SocialVideo-Bench 评测登顶:在社交音视频评测集 SocialVideo-Bench 中,MaineCoon 获得 0.934 的综合平均分,在视觉质量(4.71)和音频质量(4.35)等多个关键维度上超越 SoulX-FlashTalk 及 LTX-2.3。
( @catnips_ai@X)
02 有亮点的产品
1、拾光记发布 Always-on 亲子语音记录器:支持 AI 自动高光剪辑与育儿沟通分析
拾光记团队推出面向 2-6 岁亲子家庭的 Always-on 语音记录硬件及配套 App。该产品支持在家长授权时段内进行持续语音采集,利用 AI 自动挖掘并剪辑儿童语言的高光片段。系统通过结合历史对话数据与科学育儿知识库,分析亲子沟通模式并提供客观的改进建议。
Always-on 硬件形态与无对话设计:产品采用手环及挂件形态,专为 2-6 岁儿童日常场景设计;主动摒弃人机语音对话交互,专注于后台无感记录,避免 AI 设备干扰儿童的自然陪伴环境。
AI 自动语言高光剪辑:支持在授权时间段内进行持续音频采集,通过 AI 算法自动识别、提取并剪辑儿童的精彩语言瞬间,解决家长使用手机录制不及时、不完整的问题。
基于历史上下文的亲子沟通分析:AI 结合历史对话记录与科学育儿知识,评估家长的日常沟通方式,针对不合理的亲子互动提供客观的观察报告与话术改进建议。
多端客户端支持:配套软件已上线 iOS 平台,并面向安卓和华为用户提供官网 APK 下载,支持手机录音、AI 剪辑及个性化育儿分析功能。
(@AI 语音 AI 思考)
2、乐奇 Rokid 联合 Pettichat 上线首个 AI 眼镜宠物翻译智能体:支持 20 余种意图识别,猫叫声学测试准确率达 94.6%
乐奇 Rokid 与 AI 宠物翻译品牌 Pettichat 达成合作,在 Rokid AI 眼镜端正式上线「萌小译」AI 智能体。该系统通过 Pettichat 智能项圈采集猫狗叫声并完成云端 AI 转译,将翻译结果实时以文字形式推送到眼镜的衍射光波导显示屏上,实现了免手机介入的人宠双向实时交互。
500 万条真实声纹数据集:该智能体依托浙江大学动物科学学院提供的超 500 万条真实宠物声纹数据进行模型训练,支持识别「饥饿」、「害怕」、「想玩耍」等 20 余种常见宠物情绪与意图。
高精度声学识别算法:官方测试数据显示,该模型在猫的情境声学模式测试中准确率达到 94.6%,在狗的声纹识别中准确率达到 92.3%。
多设备云端协同链路:硬件层面采用 Pettichat 项圈进行音频采集与转译,通过云端实时同步至采用衍射光波导显示技术的乐奇 AI 眼镜,实现低延迟的前景文本视场角渲染。
端侧 AI 智能体生态拓展:该功能作为乐奇智能体商店的全新组件引入,后续版本规划接入语音播报、GPS 宠物定位及宠物健康档案等 API 接口,推进由单一翻译向动物行为世界模型的演进。
(@Rokid 乐奇)
3、YC 孵化项目 VoiceOS 发布语音智能体系统:集成多款第三方应用,实现语音指令跨软件一键执行
YC 孵化项目 VoiceOS 正式推出跨应用语音控制系统。该系统通过「智能体模式」与「智能听写模式」,将多应用间的繁琐操作简化为单句语音指令,免去了频繁的手动界面切换。该产品旨在通过语音交互层重构办公软件的日常工作流,大幅提升多任务协同效率。
跨应用智能体驱动链路:其「智能体模式」支持单条自然语言指令驱动跨应用协作。例如,指令「回复 Sam 的邮件并预约明天的会议」可自动触发 Gmail 检索及回复、读取日历数据、创建新日程并自动添加参会者,将原本需要 12 步的跨软件手动操作缩减至 1 步。
应用生态原生级调用:已打通 Notion、Cursor、Slack、Gmail、Linear、Figma 等主流开发与办公软件,支持通过底层接口实现无缝的上下文切换与数据写入。
自适应排版听写引擎:其「听写模式」并非简单的语音转文字,而是支持根据语境自动对原始语音进行逻辑重组、语法修正与结构化排版,输出符合邮件或文档规范的文本。
本地优先的隐私安全策略:默认本地化处理数据,音频不保存在服务器上。控制台提供「不保存云端音频」与「不使用个人数据训练 AI 模型」等安全开关;企业级版本提供零数据保留承诺,并合规对接 SOC 2 Type II、ISO 27001 等安全认证。
试用链接:
https://www.voiceos.com/
( @Voiceos、@kai_brokering@X)
03 有态度的观点
1、罗剑岚:具身智能不能简单照搬大语言模型的发展路径
上海创智学院副教授、智元机器人首席科学家罗剑岚在接受采访时表示,具身智能不能简单照搬大语言模型的发展路径。
罗剑岚强调真实训练数据的重要性。他指出,当前行业中很多所谓「机器人基础模型」更接近在开源底座上的任务适配、中训练或微调,还没有进入大规模、异构、真实交互数据驱动的预训练阶段。
罗剑岚给出的核心判断是,机器人领域离线训练 Loss 下降,并不必然对应真实部署成功率提升。大语言模型的 Scaling Law 建立在预训练 Loss 与能力之间相对稳定的统计关系上;
机器人面对开放物理世界,涉及接触、扰动、长尾场景、硬件差异和任务反馈,模型拟合静态数据不等于能驾驭现实。
真正的机器人基础模型预训练,也应该像 LLM 一样,吸纳极其广泛、甚至包含噪声的数据。机器人领域的数据来自真实世界中的交互、失败、纠错、恢复和长尾场景。
( @APPSO)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
作者提示: 个人观点,仅供参考