今年国内智能眼镜出货量预计达 290.7 万台；ElevenLabs 推出商用 Eleven Music API丨日报

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@赵怡岭、@鲍勃

01有话题的技术

1、腾讯 AudioGenie：支持生成音效、语音和音乐等多种音频

腾讯 AI Lab 推出 AudioGenie，这款工具支持从视频、文本和图像等多种模态输入，能够生成音效、语音和音乐等多种音频输出。

AudioGenie 采用创新的多智能体协作框架，通过生成团队与监督团队的双层架构实现高效协作。生成团队利用任务分解和自适应专家混合机制（MoE）动态选择最适合的模型进行音频生成，保证输出质量；监督团队则负责时空一致性验证，通过反馈循环进行自我纠错，确保音频高度可靠。

为全面评估多模态音频生成能力，腾讯 AI Lab 推出了 MA-Bench，这是全球首个针对多模态到多音频生成任务的基准测试集。测试显示，AudioGenie 在音质、准确性、内容对齐和美学体验等指标上均达到或接近最先进水平。

项目官网：

https://audiogenie.github.io/ （@ AI 星球视界）

2、字节 Seed 开源长线记忆多模态 Agent，支持实时的视觉和听觉输入

字节 Seed 开源全新多模态智能体框架——M3-Agent。

M3-Agent 的亮点在于，它不仅能够处理实时的视觉和听觉输入，以构建和更新其长期记忆，还发展了语义记忆，能够随着时间的推移积累知识。

为了评估多模态智能体中的记忆有效性和基于记忆的推理，来自字节 Seed、浙江大学和上海交通大学的研究团队还开源了新的长视频问答基准：M3-Bench。

M3-Agent 研究表明，通过在人脸、语音和文本中建立具有持久 ID 的长期结构化记忆，能够显著提升长视频内容的推理能力。

字节 Seed 团队提出了 M3-Agent，一个配备长期记忆的新型多模态代理框架。它通过两个并行过程运作：记忆过程和控制过程。

记忆过程持续感知实时多模态输入以构建和更新长期记忆；控制过程则解释外部指令，对存储的记忆进行推理，并执行相应的任务。

GitHub:

https://github.com/bytedance-seed/m3-agent

3、ElevenLabs 推出商用 Eleven Music API

ElevenLabs 推出商用音乐 API Eleven Music API，这是 ElevenLabs 首个为开发者打造的音乐 API，其训练数据已获得授权许可，可用于广泛的商业用途。

用户可以通过 API 将 AI 音乐整合到产品和工作中。

Eleven Music API 支持：

通过文字提示生成高质量的音乐；
创作任何流派的人声或纯音乐版本；
自定义歌曲的长度、结构和语言。

另外，全球知名创意机构 AMP 正在将 Eleven Music 加入其 Sonic Hub。

官方介绍：

https://elevenlabs.io/docs/capabilities/music

数日前，Elevenlabs 还推出了一个把任何网站生成歌曲的网页：https://jinglemaker.ai (@ elevenlabsio@X)

4、语音转文字工具 WhisperLiveKit：支持实时性、本地化、说话人识别功能

WhisperLiveKit 是一款语音转文字工具，支持实时性、本地化、说话人识别功能。该模型支持实时识别说话人，比如会议、访谈等多人对话场景中，可以标出每个说话人的话语，且支持多用户，可以同时处理多个用户的语音转录请求，比如在线课堂、多人会议等多人场景。

核心技术亮点：

实时与低延迟：该工具通过 SimulStreaming 和 WhisperStreaming，实现超低延迟的实时转录和支持高置信度词元的即时验证；
实时说话人分离（Speaker Diarization）：采用 Streaming Sortformer 和 Diart 等技术，实时识别不同说话人；
易于部署：开发者可以通过简单的 pip install 命令安装，并提供了一键启动的服务器命令，也可通过 Docker 进行容器化部署。此外，支持 SSL 配置以满足 HTTPS 需求，并提供了生产环境下的部署指南。
强兼容性：支持多种 Whisper 模型后端，包括原始的 OpenAI Whisper、faster-whisper、mlx-whisper 甚至可以直接调用 OpenAI API。

GitHub:

https://github.com/QuentinFuxa/WhisperLiveKit

02有亮点的产品

1、百度文库网盘发布全球首个全端通用智能体

8 月 18 日，在百度 AI Day 开放日上，百度文库联合百度网盘发布全球首个全端通用智能体「GenFlow2.0」。

据介绍，GenFlow2.0 支持超 100 个专家智能体同时干活，3 分钟并行完成超 5 项复杂任务，生成速度超主流同类型产品 10 倍，率先做到「分钟级交付、过程可干预、记忆可追溯」：

对于「描述难」问题，文库 GenFlow2.0 可自主理解用户意图并规划执行，自动切换简单对话、复杂任务等不同协作模式。同时，该产品还支持用户在任务过程随时「干预」，根据场景需求进行暂停、追问、修改思考内容、上传文件参考。
针对「等待久」问题，文库 GenFlow2.0 采用自研 Multi-Agent 基础架构，实现分钟级「并行」工作和交付，App 端更将常规「瀑布式」升级为「并列式」工作流，极大提升用户交互体验。
在「交付」能力上，文库 GenFlow2.0 可调用 100+ 多模态 Agent 组成的「AI 专家团」，并行生成 PPT、研报、视频绘本、海报、图片、图表、HTML、代码、游戏、网站等多模态内容。

值得一提的是，文库 GenFlow2.0 还全面打通了百度生态资源。GenFlow 2.0 连接起百度文库、学术、地图等百度生态资源，不仅能调用百度学术超 6.8 亿文献库、百度文库超 14 亿专业文档，在用户授权后，还能随时检索、调用百度网盘中储存的指定资料。

GenFlow 2.0 支持记忆在文库、网盘的历史沟通记录、上传下载文件、搜索偏好等，且 GenFlow 2.0 会据此生成更契合你的个性化内容。

GenFlow 2.0 兼容 MCP 协议，可灵活接入第三方服务生态。基于文库网盘联合发布的内容操作系统沧舟 OS，通过 MCP Server 与 Agent to Agent 的形式，将文库与网盘能力全面开放，方便厂商、企业用户、智能体应用、开发者等不同用户使用。

目前，GenFlow2.0 已经正式在百度文库 Web 端、App 端上线，无需排队、邀请码，所有用户均可以直接使用。（@百度、@ APPSO）

2、今年国内智能眼镜出货量预计达 290.7 万台

据 IDC 预测，智能眼镜产品成为今年消费电子赛道的「黑马」，今年相应产品在中国市场出货量预计达到 290.7 万台，同比增长 121.1%。业内人士普遍认为，这缘于技术突破、市场需求释放以及产业链成熟等多重因素。

具体来说，今年第一季度中国智能眼镜市场出货量为 49.4 万台，同比增长 116.1%。其中中国音频和音频拍摄眼镜市场出货量 35.9 万台，同比增长 197.4%。第二季度，AI 眼镜出货量上涨态势得以延续。

在厂商方面，包括小米、华为等品牌 AI 眼镜在电商平台上销量排名靠前。各类跨界品牌通过技术创新和价格策略快速崛起，出货量位居前列；灵伴科技、大朋 VR 等品牌在 AI 眼镜细分市场上不断推陈出新，并持续拓展功能和适用场景；华为、阿里、字节跳动等品牌也纷纷入局。

IDC 表示，随着技术革新、政策扶持与产品升级形成合力，AI 眼镜市场进入高速增长通道，产品价格也更容易被消费者接受。综合来看，年初以来国内 AI 眼镜均价已从数千元降至千元左右。在王浩宇看来，随着下半年销售旺季来临，国内 AI 眼镜的整体出货量有望保持大幅增长。（@ IT 之家、@ XR 控）

3、xAI 的 AI 伴侣 Ani 和 Valentine 现已支持电话实时通话

xAI 公司旗下的 AI 伴侣 Ani 和 Valentine 现已开通专属电话号码，用户可直接拨打进行实时语音通话。

官方公布了两个 AI 伴侣的专属电话号码，用户可直接拨打进行互动。Ani 的电话号码是 +1 （325） 225-5264，Valentine 的电话号码是 +1 （607） 225-5825。

用户现在可以通过电话与名为 Ani 和 Valentine 的 AI 伴侣进行实时通话。

03有态度的观点

1、英伟达新研究：智能体的未来是小模型

日前，英伟达发布了一篇名为《Small Language Models are the Future of Agentic AI》（小型语言模型是智能代理 AI 的未来）的论文，其中指出：

小型语言模型（Small Language Models，SLMs）的崛起，标志着智能代理 AI（Agentic AI）发展方向的一次重要转向。

研究人员在文中表示，与业界普遍追捧的大型语言模型（LLMs）相比，SLMs 不仅在特定任务上已具备足够的处理能力，其固有的经济性和适用性也更为出色，为构建高效、可持续的 AI Agent 奠定了基础。

而据研究团队透露，尽管 LLMs 在处理通用和复杂任务上取得了突破，但此类模型在许多 Agent 的专用场景中存在明显的资源冗余问题，未能达到理想的成本效益标准。

而通过将重心转向 SLMs，研究者发现模型在执行重复性、专业化的任务时表现却更加高效，并极大地降低了运算和部署成本。

论文作者强调，经济性是推动 AI 从「展示品」迈向「生产力工具」必不可少的因素，而 AI Agent 的规模化应用依赖于更精细的成本与效能的平衡。

此外，该论文还提到，从 LLM 到 SLM 的转变背后，是整个行业对 AI 资源有效利用的战略性思考。

提出这一观点不仅是为了推动技术路线的演进，更旨在确保整个行业对 AI 发展的经济现实有更清醒的认识，帮助我们在性能和成本之间找到最佳平衡点。(@ APPSO)

2、OpenAI 总裁：OpenAI 的 AGI 之路

日前，OpenAI 总裁 Greg Brockman 接受了《Latent Space》的访谈，并在节目中分享了 OpenAI 在 AGI 的发展之路。

Brockman 指出，相比于前代模型，最新发布的 GPT-5 具备了更强的推理能力，而这也标志着 OpenAI 向 AGI 的过渡速度正在加快。

「尽管 GPT-4 在推理和对话方面取得突破，但其并未达到 AGI 水平。」Brockman 认为，要实现 AGI，OpenAI 需要解决模型可靠性和推理深度等挑战。他提到，应对这些问题的核心方法是强化学习（RL），并强调算力是推动 AGI 发展的关键因素。

Brockman 介绍，在本次更新中，GPT-5 的推理能力更接近 AGI 的需求，使 GPT-5 能在复杂任务中表现得更为「靠谱」。其还提到，GPT-5 在数学、编程和科研等领域的表现接近顶尖人类水平，从而也推动了科学研究的加速。

此外，Brockman 强调开源模型 GPT-OSS 的发布，这对 OpenAI 来说不仅是聚焦技术创新，更是在全球范围内推动「技术栈」竞争力。面对开源这一问题，Brockman 坦言，「开源将促进技术普及，并能为全球 AI 发展设定标准。」(@ APPSO)

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。