MemU：为 AI 伴侣打造的开源记忆框架；实时音乐生成模型 Magenta RealTime：听取音乐实时响应丨日报

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@赵怡岭、@鲍勃

01有话题的技术

1、AI 伴侣智能记忆框架 MemU，能自主决定记忆的记录、修改与归档

MemU 是一个专为 AI 伴侣打造的下一代开源记忆框架，其核心目标是提供高准确度、快速检索和低成本的记忆解决方案，使 AI 伴侣能够真正记住用户并从交互中持续学习与进化。

该框架具备智能记忆文件管理能力，能自主决定记忆的记录、修改与归档；通过互联知识图谱，自动建立记忆间的关联，实现知识的轻松回忆；并通过持续自学习机制，即使离线也能分析现有记忆、生成新洞察和总结。

此外，它还采用自适应遗忘机制，根据使用模式智能地优先级管理信息，确保关键信息随时可得。MemU 在 Locomo 基准测试中实现了 92.09%的记忆准确率，通过优化文档化存储减少了碎片化搜索，并能批量处理对话以显著降低运行成本。

该项目支持云端托管、企业定制部署及社区版自托管，广泛适用于 AI 伴侣、角色扮演、教育、治疗等各类 AI 应用场景。

地址：

https://github.com/NevaMind-AI/memU （@每日 AI 新工具）

2、端侧视觉模型 MiniCPM-V 4.0，支持强大单图像、多图像和视频理解

MiniCPM-V 4.0 是 MiniCPM-V 系列的最新高效模型，基于 SigLIP2-400M 和 MiniCPM4-3B 构建，总参数量为 4.1B。该模型继承了 MiniCPM-V 2.6 的强大单图像、多图像和视频理解能力，并在效率上有了显著提升。MiniCPM-V 4.0 以其领先的视觉能力和优越的效率表现，适合在设备端部署，支持多种使用方式，并提供详细的使用指南。

3、昆仑万维 SkyReels-A3 模型，语音驱动的数字人创作工具

昆仑万维集团宣布推出基于 DiT（Diffusion Transformer）视频扩散模型的音频驱动数字人创作工具 SkyReels-A3。该模型能够实现任意时长的全模态音频驱动数字人创作，通过上传人像图片和相应的语音，即可使图片中的人物按照语音内容开口说话或唱歌。此外，该模型还支持创作新的视频内容，用户只需提供人像图片、语音和文字提示，即可生成按照要求状态进行表演的视频。

SkyReels-A3 还能够为现有视频「改台词」，自动匹配新的口型、表情和表演，保持画面连贯。该模型在文本提示词输入、动作交互自然度、运镜控制以及视频输出时长等方面都进行了优化和提升，支持长达 60 秒的单分镜视频输出，多分镜支持无限时长，满足不同创作需求。昆仑万维还针对线上直播等实际应用场景进行了特定优化，提高了视频生成的一致性和特定交互动作的自然度和清晰度。

SkyReels-A3 的推出，为广告、直播带货等商业应用提供了强有力的技术支持，也为音乐 MV、电影片段或演讲视频等艺术创作提供了更多可能性。通过引入基于 ControlNet 结构的镜头控制模块，实现了帧级别精准运镜控制，预设了 8 种常见的运镜参数，用户可以根据需要选择相应运镜，并且每个运镜的强度可 0–100% 连续调节，生成专业的运镜效果。 (@OneThingAI Lab)

02有亮点的产品

1、马斯克的 Grok 4 宣布全球免费使用

8 月 10 日，马斯克旗下 xAI 宣布，Grok 4 面向全球所有用户免费开放使用。

用户只需使用自动模式，Grok 将会自动把复杂查询路由切换至 Grok 4；若想持续使用 Grok 4，只需切换为「专家模式」（Expert）即可。

Grok 4 于 7 月发布，为 xAI 新一代旗舰模型，马斯克还强调其是目前世界上最聪明的 AI。其拥有共有两个版本：Grok 4 是单智能体模型，而 Grok 4 Heavy 则是多智能体版本。

而据此前测试结果显示，Grok 4 在《人类最后的考试（HLE）》中，不使用任何工具的情况下，得分为 25.4%，超过了 Google Gemini 2.5 Pro 的 21.6% 和 OpenAI o3（高配版）的 21%；而在使用工具的情况下，Grok 4 Heavy 的得分达到 44.4%，远高于使用工具后 Gemini 2.5 Pro 的 26.9%。(@APPSO)

2、X 平台推出「Make Video with Grok」新功能

X 平台上线新功能，用户可将平台上的任意图片一键转换为视频，需要将应用更新至 v11.12.1 版本。

X 平台推出了一项名为 Make Video with Grok 的新功能，允许用户将平台上的任意图片转换为视频。

用户只需长按心仪的图片，在弹出的菜单中选择相应选项即可生成视频。该功能需要将 X 应用程序更新至 v11.12.1 版本。

同时，xAI 的图像生成功能 Grok Imagine 即将推出网页版。官方发布了一段视频，展示了其在网页浏览器中的操作界面，预示着该功能很快将向 Web 用户开放。

3、古尔曼称苹果将推出全新 AI 语音深度控制功能

（图片来源：彭博社）

彭博社记者马克・古尔曼发布了最新的 Power On 时事通信，他表示苹果正测试一项全新的 Siri 功能，旨在让 iPhone 用户仅凭语音即可完成精准操作，依托改进的 App Intents 技术实现跨应用深度控制。

据介绍，这一功能将依托改进的 App Intents 技术，可实现跨应用的深度控制，包括查找、编辑并发送特定照片，或者在社交媒体上发表评论，浏览购物应用并将商品加入购物车，甚至无需触摸屏幕即可登录某个 App 或服务。

据称，该功能原计划与新一代 Siri 一同推出，但因内部测试与兼容性问题推迟至明年春季，并将配合 Siri 基础架构全面升级同步上线。

目前，苹果已在部分第三方应用中试用该功能，包括 Uber、AllTrails、Threads、Temu、亚马逊、YouTube、Facebook、WhatsApp 以及部分游戏，当然也包括苹果自家应用。对于银行等高敏感类别，苹果正考虑限制 Siri 的操作范围，甚至完全排除这类银行 App。

古尔曼认为，该技术不仅是 Siri 的 AI 升级要点，更是苹果构建「语音优先」交互生态的重要一步。未来，苹果计划将这种语音技术应用于正在研发的智能家居设备，包括计划于明年发布的智能显示屏和后续的桌面机器人。（@IT 之家、@荆楚网）

4、Runway 估值 50 亿融资 5 亿美元，Luma 计划融资 11 亿美元

根据权威科技媒体《The Information》援引两位知情人士的最新报道，AI 视频生成领域的明星创业公司 Runway，正在洽谈一笔高达 5 亿美元的新融资。

Runway 此前已从谷歌、英伟达和 Coatue Management 等投资者处筹集了 5.45 亿美元。

据知情人士透露，本轮融资将为 Runway 带来约 10 亿美元的现金储备。

与此同时，其更年轻的竞争对手 Luma AI 正寻求以至少 32 亿美元的投前估值筹集至少 11 亿美元资金——几乎是其 2024 年初估值的 13 倍。Luma 此前已从 Andreessen Horowitz、英伟达（Nvidia）和 General Catalyst 等投资者处筹集了 1.6 亿美元资金。

它们的工具能让电影制作人仅凭文字指令和图像，就能生成几乎任何场景的视频片段——从倒塌的建筑到动画角色。

据接近 Luma 的消息人士透露，Meta 代表此前也曾就收购或技术使用协议与 Luma 进行过接触，但相关谈判目前已终止。

去年 9 月，Runway 与狮门影业（Lionsgate）——全球闻名的《疾速追杀》（John Wick）和《饥饿游戏》（The Hunger Games）系列电影的出品方——签署了一项「史无前例」的合作协议。Runway 将利用狮门影业庞大的影视库来训练一个专属的 AI 模型。Runway 解决了 AI 视频生成的一大痛点：角色一致性。在连续的场景中，AI 可以确保主角的形象、服装和特征保持不变，这是让 AI 从「玩具」变成「生产力工具」的关键一步。Runway 的 Aleph 模型，则实现了对视频内容的「上下文编辑」。这意味着你可以上传一段视频，然后像用 Photoshop 一样对视频进行修改。

Runway 通过向软件用户出售按月分配指定额度积分的订阅服务创收。其软件曾应用于《瞬息全宇宙》等影片制作，并与狮门影业达成合作，通过媒体授权为该电影公司定制专属模型。

03Real-Time AI Demo

1、实时音频生成和实时控制的开源音乐生成模型 Magenta RealTime

来自 X 的@jesseengel 和@chrisdonahuey：

我们很激动地宣布推出 Magenta RealTime，这是首个能够进行实时音频生成和实时控制的开源音乐生成模型。

主要功能：

通过音频输入进行实时即兴演奏：模型能够实时听取音乐并立即生成响应；
个性化你自己的模型：用户可以根据自己的风格和偏好，训练和微调模型。

GitHub:

https://github.com/magenta/magenta-realtime

Blog:

https://magenta.withgoogle.com/magenta-realtime

Hugging Face:

https://huggingface.co/google/magenta-realtime

04有态度的观点

1、王兴兴谈宇树科技上市，认为中小团队仍然有机会在未来的具身智能大模型领域跑出来

据第一财经消息，宇树科技创始人王兴兴日前在接受媒体采访时，透露了部分公司动向及发展情况。

对于资本市场的提问，王兴兴坦言，公司「正在推动一些中规中矩的上市流程」。报道指出，成立九年，王兴兴把宇树上市当成一个学习和成长的过程。

「我把上市当作高考，这是一个企业迈向更成熟的管理、运营的阶段性标志。」王兴兴说，这也是对过去九年多的时间、对宇树股东的一个交代。

另外对于机器人干活这件事，王兴兴承认这「肯定是宇树最后的目标」，也坦言「现阶段期待机器人干活产生大的价值不太现实」。

在王兴兴看来，全球范围内，具身智能的 AI 模型仍然不够好用，这也是他所认为的最大技术难点。他透露，在具身智能的大模型领域，宇树的投入还是相对谨慎。

王兴兴指出，「在 AI 这个领域，并不是说你资源多、钱多、人多，就一定能做全球最好的技术出来。我觉得 AI 过去的发展已经完全验证了这个事情。」他认为未来的具身智能大模型领域，中小团队仍然有机会跑出来。(@APPSO)

2、Airbnb CEO：AI Agent 不是「新 Google」

在 Airbnb 近日第二季度财报上，CEO 切斯基明确表示，尽管 AI 聊天机器人在旅游服务领域展现出潜力，但目前还无法取代 Google 等传统搜索引擎的核心地位。

「我们仍在探索这个领域，」他告诉投资者，「我认为不应该把 AI Agent 或聊天机器人视为『新 Google 』。」

切斯基解释道，当前 AI 模型并非某家公司独有的专利技术。「ChatGPT 使用的模型并非其专属，Airbnb 同样可以通过 API 接入这些模型，市场上还有其他可选择的 AI 模型。」

切斯基特别指出，开发高质量的 AI 客服系统比解决旅行规划等问题更具挑战性，因为 AI 客服必须确保信息准确无误，不能出现「幻觉」现象，同时还要保持友好的服务态度。

切斯基认为，与机票预订等标准化产品不同，AI Agent 不会将 Airbnb 的业务商品化，反而可能为公司带来「有趣的潜在客户开发机会」。(@APPSO)

阅读更多 Voice Agent 学习笔记：了解最懂 AI 语音的头脑都在思考什么

https://www.rtecommunity.dev/

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。