商汤SekoTalk实时数字人：25fps+3.5s延迟；售价 1499 元，Looki L1 将实时世界数据转化为上下文丨日报

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@瓒an、@鲍勃

01有话题的技术

1、商汤科技 SekoTalk：实时数字人驱动技术，25fps 生成，3.5s 首帧延迟

商汤科技发布实时语音驱动数字人技术 SekoTalk，实现 25fps 生成速度和 3.5s 首帧延迟，突破了数字人生成效率瓶颈。该技术支持多人、多语言的精准口型匹配和超长时稳定生成，推动数字人实时应用落地。

25fps 生成速度 & 3.5s 首帧延迟：在 8 卡服务器上实现，相较于其他方案（开源模型超 10 分钟，闭源模型 1-10 分钟生成 5s 视频）效率提升显著。
Phased DMD 技术：提出多阶段 MoE 模型蒸馏，实现 25 倍推理开销降低，同时保持教师模型（base model）的肢体运动和情绪表现力。
LightX2V 推理框架：集成低比特量化感知训练、稀疏注意力等优化，支持低资源部署，提供高效推理。
多语言口型精准匹配：采用性能更优的音频编码器，并解耦音视频帧率（视频 16-25fps，音频 50fps），保留口型细节，实现中英及多种小语种的准确驱动。
超长时稳定生成：通过混合参考图注入、高低语义特征联合注入、分离式 Patchify 编码及隐空间续写优化，解决长视频画面漂移和人物 ID 不一致问题。

SekoTalk 已于 2025 年 8 月上线，集成于商汤 Seko、如影数字人等产品。

提供免费在线体验平台，并在 Github 上开源了相关技术（如 LightX2V）。

免费在线体验平台：

https://sekotalk.com/

Github:

https://github.com/ModelTC/LightX2V

（@商汤科技 SenseTime）

2、Manus 1.6 Max 发布：引入旗舰 Agent，支持端到端移动 App 生成及可控图像编辑

Manus 1.6 Max 发布，从辅助工具升级为「独立承包商」。新旗舰 Agent 引入「子 Agent 战群」架构，支持复杂的 Excel 财务建模、端到端移动 App 开发，以及具有高可控性的图像编辑功能（局部修改、文字渲染、图层合成）。

旗舰 Agent 「Manus 1.6 Max」：用户满意度在双盲测试中提升 19.2%，引入高级规划架构。
子 Agent 战群模式：针对大型任务（如竞品调研），可并行分化出多个子 Agent 执行数据抓取、信息分析等任务。
端到端移动 App 生成：用户只需描述需求（如「制作一个记录猫咪饮水量的 App，界面要萌」），Manus 即可处理从需求到可运行 App 的全过程，支持 iOS 和 Android。
Design View （设计视图）：提供高可控性图像编辑，包括局部修改、图上文字渲染（直接修改文字且排版完美）、以及类似 Photoshop 的图层合成功能。
Excel 建模与自动化报表：能够处理复杂的财务建模和自动化报表生成，填补了 AI 在表格处理方面的弱项。

Manus 1.6，包括新的 Max Agent、移动开发和 Design View，现已向所有用户开放。作为本次推广的一部分，Max Agent 在限定时间内将以 50% 的折扣积分成本提供。

( @Flux AI)

3、OpenAI Realtime API 更新：GPT-4o-mini 模型性能提升，多语言支持增强

OpenAI 在 Realtime API 中上线了新的音频模型快照，重点是 gpt-4o-mini 系列。更新显著降低了幻觉（hallucinations）和词错误率（word errors），提升了指令遵循和函数调用能力。

gpt-4o-mini-transcribe-2025-12-15：幻觉率降低 89%，相比 whisper-1。
gpt-4o-mini-tts-2025-12-15：词错误率（Common Voice 评估）降低 35%。
gpt-realtime-mini-2025-12-15：指令遵循能力提升 22%，函数调用能力提升 13%。
多语言支持增强：文本转语音（TTS）和语音转文本（STT）模型在中文、日文、印尼文、印地文、孟加拉文和意大利文等语言上表现更强。

新音频模型快照已在 OpenAI Realtime API 中 live，开发者可立即试用。

4、Mirelo 完成 4100 万美元融资：推出 v1.5 AI 音效合成模型，支持视频与 SFX 同步

Mirelo 获得 Index Ventures 和 Andreessen Horowitz 领投的 4100 万美元种子轮融资。公司发布了 v1.5 AI 模型，可解析视频内容并生成同步音效（SFX）。此轮融资将用于扩展团队和加速产品研发，以应对生成式 AI 视频音频领域的竞争。

AI 音效合成模型（Mirelo SFX v1.5）：该模型能解析视频画面动作，并自动生成同步的音效，填补了当前 AI 视频生成工具音频支持的空白。

API 驱动营收：Mirelo 已将模型部署于 Fal.ai 和 Replicate 等平台，短期内主要收入来源预计将是 API 调用。
Mirelo Studio 平台：公司正在开发创作者工作空间「Mirelo Studio」，旨在支持更专业的视频制作流程。
合规训练数据：模型基于公共和购买的音效库训练，并与艺术家建立收入分成合作，以尊重版权。
定价策略：提供 freemium 模式，面向业余爱好者和生产消费者，推荐计划定价为每月 €20。

Mirelo SFX v1.5 模型已通过 API 形式发布，面向开发者和创作者。公司计划在明年将团队规模翻倍甚至三倍，并继续投入研发和市场拓展。

( @TechCrunch)

02有亮点的产品

1、「蚂蚁阿福」AI 健康助手上线：报告解读准确率 95%+

昨天，蚂蚁集团将旗下 AI 健康应用 AQ 品牌升级为「蚂蚁阿福」，围绕「健康+」战略，完善健康陪伴、健康问答、健康服务三大能力，定位由 AI 工具转向「AI 健康朋友」。

新版通过数据记录、目标管理与提醒等机制，帮助用户和家人持续养成健康习惯、管理日常健康，并连接线下医疗服务体系。

用户可建立家人健康档案，平台以「家庭医生」方式进行趋势追踪与风险提醒；同时上线「健康小目标」「健康小提醒」，为运动、饮食与生活习惯定制专属计划并日常提示。

在健康问答上，平台可理解语音、文字与图片，支持「拍皮肤」「拍报告」「拍药盒」等场景科普与解读。蚂蚁阿福强调一对一「一人一策」的专业性，利用陪伴模块的动态数据提供更具针对性的解答。

值得注意的是，「拍报告」功能支持拍照、上传 PDF、上传照片，覆盖 99% 常见报告，支持多报告对比与单报告解读，官方称解读准确率在 95% 以上。

蚂蚁阿福 App 月活用户已超 1500 万，跻身国内 AI App 前五，成为国内最大的健康管理 AI App；当前平台每日回答健康提问超过 500 万个，55% 用户来自三线及以下城市，体现普惠特征。

蚂蚁阿福强调，其回答不构成医疗诊断，亦不替代医生。平台已链接全国 30 万真人医生提供在线问诊，并可协助挂号、购药与医院电子医保码支付。

( @APPSO)

2、First Voyage 完成 250 万美元种子轮融资：推出 AI 陪伴应用「Momo Self Care」，结合数字宠物与习惯养成

First Voyage 宣布完成 250 万美元种子轮融资，由 a16z speedrun、SignalFire、True Global 等投资。该公司推出了 AI 陪伴应用「Momo Self Care」，以数字宠物 Momo 为核心，结合游戏化机制与 AI 对话，帮助用户养成习惯。目前，平台已创建超过 200 万个任务。

AI 陪伴与习惯养成：应用核心「Momo」是数字宠物，通过提醒用户完成设定的习惯任务，并给予金币奖励用于装饰 Momo，增强用户依从性与情感连接。
双向关系设计：用户通过完成任务「照顾」Momo，Momo 则反过来通过提醒与对话，引导用户自我照顾和成长。AI 可根据用户对话推荐习惯和行动建议。
游戏化激励：完成任务获得金币，用于购买 Momo 的装饰道具，增强用户参与感和长期留存。
安全对话机制：集成了提示词过滤等安全措施，确保 AI 与用户的对话保持在健康、合适的边界内。
社区与品牌愿景：目标是构建一个结合 AI、动画和游戏化机制的消费级品牌，通过 Momo 和社区改善用户生活。

「Momo Self Care」目前已在 iOS 上线，本轮融资将主要用于推动其登陆 Android 应用商店，并提升 Momo 的智能化和用户理解能力。

（@AI 星球视界）

3、Looki L1 国内正式发布，售价 1499 元：30 克 AI 挂件，将实时物理世界数据转化为模型上下文

前美团高管创立的 Looki 发布了其首款 AI 原生可穿戴设备 L1。该设备仅重 30 克，旨在通过持续采集实时视听信号，将物理世界的上下文信息输入大模型，驱动「主动式 AI」交互，解决当前大模型缺乏「在场感」的问题。

Looki L1 已在北美市场销售并出现多轮售罄，于 2025 年 12 月 16 日正式在中国大陆发售，售价 1499 元。

30 克轻量化设计：采用挂坠形态，支持磁吸或直接佩戴，以实现「全天候静默采集」，缓解 AI 眼镜在续航、重量上的「不可能三角」。
多模态实时感知：集成摄像头（1080P/30fps）和麦克风，通过「智能间隔拍摄」技术，在低功耗下持续采集视听数据，构建物理世界初步认知。
长时序数据理解：优化工程能力，解决大模型处理海量多模态数据流易产生「幻觉」的问题，实现对跨度极长的时间切片的准确理解和串联。
高效上下文管理：在云端构建机制，根据查询需求精准提取海量数据中的关键特征，而非将所有素材灌入上下文窗口，应对「Context 爆炸」。
AI 自动剪辑与 Vlog 生成：利用 AI 理解视频中的人物、场景和情感，自动从海量素材中提炼高光片段，并剪辑成带配乐和主题的 Vlog，降低内容创作门槛。

（@机器之心、@硅星人 Pro）

03有态度的观点

1、摩根大通 CEO：在 AI 时代，情商等「软技能」对就业更重要

据《财富》报道，摩根大通 CEO Jamie Dimon 上周末在福克斯新闻节目「Sunday Morning Futures」中的采访表示，AI 正在重塑就业市场并「会消除岗位」，但他不认为在「一年内」会出现大规模的裁员。

他建议求职者强化「批判性思维、学习新技能、情商（EQ）、会议表现、沟通与写作」等「软技能」，并称「你会有大量工作机会」。

Dimon 补充，AI 快速落地对员工的影响可能比再培训更快，政府与企业应通过「安置支持、收入补助」等措施帮助员工顺利过渡，「下一个工作可能更好，但需要学习如何胜任」。

报道指出，自 2023 年以来，雇主已明确以人工智能为由宣布超过 70000 个岗位裁员，原因包括自动化重复性工作与围绕新工具重组团队。

在此背景下，多位 CEO 强调软技能的重要性。微软 CEO Satya Nadella 在 11 月的访谈中称，随着 AI 接管更多分析与技术任务，「同理心与情商」的重要性正在上升；IBM 前 CEO 吉妮 · 罗梅蒂在 2023 年对 Fortune 表示，生成式 AI 的全面融入将让「协作、判断力与批判性思维」成为溢价能力，这些适应性是人类所长，无法通过学位直接教授。

（@APPSO）

04社区黑板报

招聘、项目分享、求助……任何你想和社区分享的信息，请联系我们投稿。（加微信 creators2022，备注「社区黑板报」）

1、Vibe Coding 到底行不行？VibeFriends 准备了 2 万奖金，请你来上海参与一场 Podcast 主题的黑客松

地点：上海·张江科学会堂时间：2025 年 12 月 19 日&20 参赛小组：33 组（每组 1～3 人）特约观察员：200 名

报名链接：https://vibecafe.ai/hacks02

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

作者提示：个人观点，仅供参考