商汤SekoTalk实时数字人:25fps+3.5s延迟;售价 1499 元,Looki L1 将实时世界数据转化为上下文丨日报

图片

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@瓒an、@鲍勃

01有话题的技术

1、商汤科技 SekoTalk:实时数字人驱动技术,25fps 生成,3.5s 首帧延迟

商汤科技发布实时语音驱动数字人技术 SekoTalk,实现 25fps 生成速度和 3.5s 首帧延迟,突破了数字人生成效率瓶颈。该技术支持多人、多语言的精准口型匹配和超长时稳定生成,推动数字人实时应用落地。
  • 25fps 生成速度 & 3.5s 首帧延迟:在 8 卡服务器上实现,相较于其他方案(开源模型超 10 分钟,闭源模型 1-10 分钟生成 5s 视频)效率提升显著。

  • Phased DMD 技术:提出多阶段 MoE 模型蒸馏,实现 25 倍推理开销降低,同时保持教师模型(base model)的肢体运动和情绪表现力。

  • LightX2V 推理框架:集成低比特量化感知训练、稀疏注意力等优化,支持低资源部署,提供高效推理。

  • 多语言口型精准匹配:采用性能更优的音频编码器,并解耦音视频帧率(视频 16-25fps,音频 50fps),保留口型细节,实现中英及多种小语种的准确驱动。

  • 超长时稳定生成:通过混合参考图注入、高低语义特征联合注入、分离式 Patchify 编码及隐空间续写优化,解决长视频画面漂移和人物 ID 不一致问题。

SekoTalk 已于 2025 年 8 月上线,集成于商汤 Seko、如影数字人等产品。

提供免费在线体验平台,并在 Github 上开源了相关技术(如 LightX2V)。

免费在线体验平台:

https://sekotalk.com/

Github: 

https://github.com/ModelTC/LightX2V

(@商汤科技 SenseTime)

2、Manus 1.6 Max 发布:引入旗舰 Agent,支持端到端移动 App 生成及可控图像编辑

Manus 1.6 Max 发布,从辅助工具升级为「独立承包商」。新旗舰 Agent 引入「子 Agent 战群」架构,支持复杂的 Excel 财务建模、端到端移动 App 开发,以及具有高可控性的图像编辑功能(局部修改、文字渲染、图层合成)。

  • 旗舰 Agent 「Manus 1.6 Max」:用户满意度在双盲测试中提升 19.2%,引入高级规划架构。

  • 子 Agent 战群模式:针对大型任务(如竞品调研),可并行分化出多个子 Agent 执行数据抓取、信息分析等任务。

  • 端到端移动 App 生成:用户只需描述需求(如「制作一个记录猫咪饮水量的 App,界面要萌」),Manus 即可处理从需求到可运行 App 的全过程,支持 iOS 和 Android。

  • Design View (设计视图):提供高可控性图像编辑,包括局部修改、图上文字渲染(直接修改文字且排版完美)、以及类似 Photoshop 的图层合成功能。

  • Excel 建模与自动化报表:能够处理复杂的财务建模和自动化报表生成,填补了 AI 在表格处理方面的弱项。

Manus 1.6,包括新的 Max Agent、移动开发和 Design View,现已向所有用户开放。作为本次推广的一部分,Max Agent 在限定时间内将以 50% 的折扣积分成本提供。

( @Flux AI)

3、OpenAI Realtime API 更新:GPT-4o-mini 模型性能提升,多语言支持增强

OpenAI 在 Realtime API 中上线了新的音频模型快照,重点是 gpt-4o-mini 系列。更新显著降低了幻觉(hallucinations)和词错误率(word errors),提升了指令遵循和函数调用能力。

  • gpt-4o-mini-transcribe-2025-12-15:幻觉率降低 89%,相比 whisper-1。

  • gpt-4o-mini-tts-2025-12-15:词错误率(Common Voice 评估)降低 35%。

  • gpt-realtime-mini-2025-12-15:指令遵循能力提升 22%,函数调用能力提升 13%。

  • 多语言支持增强:文本转语音(TTS)和语音转文本(STT)模型在中文、日文、印尼文、印地文、孟加拉文和意大利文等语言上表现更强。

新音频模型快照已在 OpenAI Realtime API 中 live,开发者可立即试用。

相关链接:

platform.openai.com/audio/realtime

( @OpenAI Developer Community)


4、Mirelo 完成 4100 万美元融资:推出 v1.5 AI 音效合成模型,支持视频与 SFX 同步

Mirelo 获得 Index Ventures 和 Andreessen Horowitz 领投的 4100 万美元种子轮融资。公司发布了 v1.5 AI 模型,可解析视频内容并生成同步音效 (SFX)。此轮融资将用于扩展团队和加速产品研发,以应对生成式 AI 视频音频领域的竞争。

  • AI 音效合成模型 (Mirelo SFX v1.5):该模型能解析视频画面动作,并自动生成同步的音效,填补了当前 AI 视频生成工具音频支持的空白。

  • API 驱动营收:Mirelo 已将模型部署于 Fal.ai 和 Replicate 等平台,短期内主要收入来源预计将是 API 调用。

  • Mirelo Studio 平台:公司正在开发创作者工作空间 「Mirelo Studio」,旨在支持更专业的视频制作流程。

  • 合规训练数据:模型基于公共和购买的音效库训练,并与艺术家建立收入分成合作,以尊重版权。

  • 定价策略:提供 freemium 模式,面向业余爱好者和生产消费者,推荐计划定价为每月 €20。


Mirelo SFX v1.5 模型已通过 API 形式发布,面向开发者和创作者。公司计划在明年将团队规模翻倍甚至三倍,并继续投入研发和市场拓展。

( @TechCrunch)



02有亮点的产品

1、「蚂蚁阿福」AI 健康助手上线:报告解读准确率 95%+
图片

昨天,蚂蚁集团将旗下 AI 健康应用 AQ 品牌升级为「蚂蚁阿福」,围绕「健康+」战略,完善健康陪伴、健康问答、健康服务三大能力,定位由 AI 工具转向「AI 健康朋友」。

新版通过数据记录、目标管理与提醒等机制,帮助用户和家人持续养成健康习惯、管理日常健康,并连接线下医疗服务体系。

用户可建立家人健康档案,平台以「家庭医生」方式进行趋势追踪与风险提醒;同时上线「健康小目标」「健康小提醒」,为运动、饮食与生活习惯定制专属计划并日常提示。

在健康问答上,平台可理解语音、文字与图片,支持「拍皮肤」「拍报告」「拍药盒」等场景科普与解读。蚂蚁阿福强调一对一「一人一策」的专业性,利用陪伴模块的动态数据提供更具针对性的解答。

值得注意的是,「拍报告」功能支持拍照、上传 PDF、上传照片,覆盖 99% 常见报告,支持多报告对比与单报告解读,官方称解读准确率在 95% 以上。

蚂蚁阿福 App 月活用户已超 1500 万,跻身国内 AI App 前五,成为国内最大的健康管理 AI App;当前平台每日回答健康提问超过 500 万个,55% 用户来自三线及以下城市,体现普惠特征。

蚂蚁阿福强调,其回答不构成医疗诊断,亦不替代医生。平台已链接全国 30 万真人医生提供在线问诊,并可协助挂号、购药与医院电子医保码支付。

( @APPSO)

2、First Voyage 完成 250 万美元种子轮融资:推出 AI 陪伴应用「Momo Self Care」,结合数字宠物与习惯养成
图片


First Voyage 宣布完成 250 万美元种子轮融资,由 a16z speedrun、SignalFire、True Global 等投资。该公司推出了 AI 陪伴应用「Momo Self Care」,以数字宠物 Momo 为核心,结合游戏化机制与 AI 对话,帮助用户养成习惯。目前,平台已创建超过 200 万个任务。

  • AI 陪伴与习惯养成:应用核心「Momo」是数字宠物,通过提醒用户完成设定的习惯任务,并给予金币奖励用于装饰 Momo,增强用户依从性与情感连接。

  • 双向关系设计:用户通过完成任务「照顾」Momo,Momo 则反过来通过提醒与对话,引导用户自我照顾和成长。AI 可根据用户对话推荐习惯和行动建议。

  • 游戏化激励:完成任务获得金币,用于购买 Momo 的装饰道具,增强用户参与感和长期留存。

  • 安全对话机制:集成了提示词过滤等安全措施,确保 AI 与用户的对话保持在健康、合适的边界内。

  • 社区与品牌愿景:目标是构建一个结合 AI、动画和游戏化机制的消费级品牌,通过 Momo 和社区改善用户生活。

「Momo Self Care」目前已在 iOS 上线,本轮融资将主要用于推动其登陆 Android 应用商店,并提升 Momo 的智能化和用户理解能力。

(@AI 星球视界)

3、Looki L1 国内正式发布,售价 1499 元:30 克 AI 挂件,将实时物理世界数据转化为模型上下文
图片

前美团高管创立的 Looki 发布了其首款 AI 原生可穿戴设备 L1。该设备仅重 30 克,旨在通过持续采集实时视听信号,将物理世界的上下文信息输入大模型,驱动「主动式 AI」交互,解决当前大模型缺乏「在场感」的问题。

Looki L1 已在北美市场销售并出现多轮售罄,于 2025 年 12 月 16 日正式在中国大陆发售,售价 1499 元。

  • 30 克轻量化设计:采用挂坠形态,支持磁吸或直接佩戴,以实现「全天候静默采集」,缓解 AI 眼镜在续航、重量上的「不可能三角」。

  • 多模态实时感知:集成摄像头(1080P/30fps)和麦克风,通过「智能间隔拍摄」技术,在低功耗下持续采集视听数据,构建物理世界初步认知。

  • 长时序数据理解:优化工程能力,解决大模型处理海量多模态数据流易产生「幻觉」的问题,实现对跨度极长的时间切片的准确理解和串联。

  • 高效上下文管理:在云端构建机制,根据查询需求精准提取海量数据中的关键特征,而非将所有素材灌入上下文窗口,应对「Context 爆炸」。

  • AI 自动剪辑与 Vlog 生成:利用 AI 理解视频中的人物、场景和情感,自动从海量素材中提炼高光片段,并剪辑成带配乐和主题的 Vlog,降低内容创作门槛。

(@机器之心、@硅星人 Pro)



03有态度的观点 

1、摩根大通 CEO:在 AI 时代,情商等「软技能」对就业更重要
图片

据《财富》报道,摩根大通 CEO Jamie Dimon 上周末在福克斯新闻节目「Sunday Morning Futures」中的采访表示,AI 正在重塑就业市场并「会消除岗位」,但他不认为在「一年内」会出现大规模的裁员。

他建议求职者强化「批判性思维、学习新技能、情商(EQ)、会议表现、沟通与写作」等「软技能」,并称「你会有大量工作机会」。

Dimon 补充,AI 快速落地对员工的影响可能比再培训更快,政府与企业应通过「安置支持、收入补助」等措施帮助员工顺利过渡,「下一个工作可能更好,但需要学习如何胜任」。

报道指出,自 2023 年以来,雇主已明确以人工智能为由宣布超过 70000 个岗位裁员,原因包括自动化重复性工作与围绕新工具重组团队。

在此背景下,多位 CEO 强调软技能的重要性。微软 CEO Satya Nadella 在 11 月的访谈中称,随着 AI 接管更多分析与技术任务,「同理心与情商」的重要性正在上升;IBM 前 CEO 吉妮 · 罗梅蒂在 2023 年对 Fortune 表示,生成式 AI 的全面融入将让「协作、判断力与批判性思维」成为溢价能力,这些适应性是人类所长,无法通过学位直接教授。

(@APPSO)



04社区黑板报 

招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)

1、Vibe Coding 到底行不行?VibeFriends 准备了 2 万奖金,请你来上海参与一场 Podcast 主题的黑客松

地点:上海·张江科学会堂 时间:2025 年 12 月 19 日&20 参赛小组:33 组(每组 1~3 人) 特约观察员:200 名


报名链接:https://vibecafe.ai/hacks02

图片

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

作者提示:个人观点,仅供参考

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    关键词
    // 相关帖子
    Coming soon...
    • 0
    商汤SekoTalk实时数字人:25fps+3.5s延迟;售价 1499 元,Looki L1 将实时世界数据转化为上下文丨日报RTRTE_Dev_Comm