今年国内智能眼镜出货量预计达 290.7 万台;ElevenLabs 推出商用 Eleven Music API丨日报

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@赵怡岭、@鲍勃

01有话题的技术

1、腾讯 AudioGenie:支持生成音效、语音和音乐等多种音频

腾讯 AI Lab 推出 AudioGenie,这款工具支持从视频、文本和图像等多种模态输入,能够生成音效、语音和音乐等多种音频输出。

AudioGenie 采用创新的多智能体协作框架,通过生成团队与监督团队的双层架构实现高效协作。生成团队利用任务分解和自适应专家混合机制(MoE)动态选择最适合的模型进行音频生成,保证输出质量;监督团队则负责时空一致性验证,通过反馈循环进行自我纠错,确保音频高度可靠。

为全面评估多模态音频生成能力,腾讯 AI Lab 推出了 MA-Bench,这是全球首个针对多模态到多音频生成任务的基准测试集。测试显示,AudioGenie 在音质、准确性、内容对齐和美学体验等指标上均达到或接近最先进水平。

项目官网:

https://audiogenie.github.io/ (@ AI 星球视界)


2、字节 Seed 开源长线记忆多模态 Agent,支持实时的视觉和听觉输入

字节 Seed 开源全新多模态智能体框架——M3-Agent。

M3-Agent 的亮点在于,它不仅能够处理实时的视觉和听觉输入,以构建和更新其长期记忆,还发展了语义记忆,能够随着时间的推移积累知识。

为了评估多模态智能体中的记忆有效性和基于记忆的推理,来自字节 Seed、浙江大学和上海交通大学的研究团队还开源了新的长视频问答基准:M3-Bench。

M3-Agent 研究表明,通过在人脸、语音和文本中建立具有持久 ID 的长期结构化记忆,能够显著提升长视频内容的推理能力。

字节 Seed 团队提出了 M3-Agent,一个配备长期记忆的新型多模态代理框架。它通过两个并行过程运作:记忆过程和控制过程。

记忆过程持续感知实时多模态输入以构建和更新长期记忆;控制过程则解释外部指令,对存储的记忆进行推理,并执行相应的任务。

GitHub: 

https://github.com/bytedance-seed/m3-agent

相关链接:

https://x.com/omarsar0/status/1956773240623235076(@ omarsar0@X、@量子位)

3、ElevenLabs 推出商用 Eleven Music API

ElevenLabs 推出商用音乐 API Eleven Music API,这是 ElevenLabs 首个为开发者打造的音乐 API,其训练数据已获得授权许可,可用于广泛的商业用途。

用户可以通过 API 将 AI 音乐整合到产品和工作中。

Eleven Music API 支持:

  • 通过文字提示生成高质量的音乐;

  • 创作任何流派的人声或纯音乐版本;

  • 自定义歌曲的长度、结构和语言。

另外,全球知名创意机构 AMP 正在将 Eleven Music 加入其 Sonic Hub。

官方介绍:

https://elevenlabs.io/docs/capabilities/music

数日前,Elevenlabs 还推出了一个把任何网站生成歌曲的网页:https://jinglemaker.ai (@ elevenlabsio@X)

4、语音转文字工具 WhisperLiveKit:支持实时性、本地化、说话人识别功能

WhisperLiveKit 是一款语音转文字工具,支持实时性、本地化、说话人识别功能。该模型支持实时识别说话人,比如会议、访谈等多人对话场景中,可以标出每个说话人的话语,且支持多用户, 可以同时处理多个用户的语音转录请求,比如在线课堂、多人会议等多人场景。

核心技术亮点:

  • 实时与低延迟:该工具通过 SimulStreaming 和 WhisperStreaming,实现超低延迟的实时转录和支持高置信度词元的即时验证;

  • 实时说话人分离 (Speaker Diarization):采用 Streaming Sortformer 和 Diart 等技术,实时识别不同说话人;

  • 易于部署:开发者可以通过简单的 pip install 命令安装,并提供了一键启动的服务器命令,也可通过 Docker 进行容器化部署。此外,支持 SSL 配置以满足 HTTPS 需求,并提供了生产环境下的部署指南。

  • 强兼容性:支持多种 Whisper 模型后端,包括原始的 OpenAI Whisper、faster-whisper、mlx-whisper 甚至可以直接调用 OpenAI API。

GitHub: 

https://github.com/QuentinFuxa/WhisperLiveKit

相关链接:

https://x.com/aigclink/status/1957665021955342534(@ aigclink@X)


02有亮点的产品

1、百度文库网盘发布全球首个全端通用智能体

8 月 18 日,在百度 AI Day 开放日上,百度文库联合百度网盘发布全球首个全端通用智能体「GenFlow2.0」。

据介绍,GenFlow2.0 支持超 100 个专家智能体同时干活,3 分钟并行完成超 5 项复杂任务,生成速度超主流同类型产品 10 倍,率先做到「分钟级交付、过程可干预、记忆可追溯」:

  • 对于「描述难」问题,文库 GenFlow2.0 可自主理解用户意图并规划执行,自动切换简单对话、复杂任务等不同协作模式。同时,该产品还支持用户在任务过程随时「干预」,根据场景需求进行暂停、追问、修改思考内容、上传文件参考。

  • 针对「等待久」问题,文库 GenFlow2.0 采用自研 Multi-Agent 基础架构,实现分钟级「并行」工作和交付,App 端更将常规「瀑布式」升级为「并列式」工作流,极大提升用户交互体验。

  • 在「交付」能力上,文库 GenFlow2.0 可调用 100+ 多模态 Agent 组成的「AI 专家团」,并行生成 PPT、研报、视频绘本、海报、图片、图表、HTML、代码、游戏、网站等多模态内容。

值得一提的是,文库 GenFlow2.0 还全面打通了百度生态资源。GenFlow 2.0 连接起百度文库、学术、地图等百度生态资源,不仅能调用百度学术超 6.8 亿文献库、百度文库超 14 亿专业文档,在用户授权后,还能随时检索、调用百度网盘中储存的指定资料。

GenFlow 2.0 支持记忆在文库、网盘的历史沟通记录、上传下载文件、搜索偏好等,且 GenFlow 2.0 会据此生成更契合你的个性化内容。

GenFlow 2.0 兼容 MCP 协议,可灵活接入第三方服务生态。基于文库网盘联合发布的内容操作系统沧舟 OS,通过 MCP Server 与 Agent to Agent 的形式,将文库与网盘能力全面开放,方便厂商、企业用户、智能体应用、开发者等不同用户使用。

目前,GenFlow2.0 已经正式在百度文库 Web 端、App 端上线,无需排队、邀请码,所有用户均可以直接使用。(@百度、@ APPSO)

2、今年国内智能眼镜出货量预计达 290.7 万台

据 IDC 预测,智能眼镜产品成为今年消费电子赛道的「黑马」,今年相应产品在中国市场出货量预计达到 290.7 万台,同比增长 121.1%。业内人士普遍认为,这缘于技术突破、市场需求释放以及产业链成熟等多重因素。

具体来说,今年第一季度中国智能眼镜市场出货量为 49.4 万台,同比增长 116.1%。其中中国音频和音频拍摄眼镜市场出货量 35.9 万台,同比增长 197.4%。第二季度,AI 眼镜出货量上涨态势得以延续。


在厂商方面,包括小米、华为等品牌 AI 眼镜在电商平台上销量排名靠前。各类跨界品牌通过技术创新和价格策略快速崛起,出货量位居前列;灵伴科技、大朋 VR 等品牌在 AI 眼镜细分市场上不断推陈出新,并持续拓展功能和适用场景;华为、阿里、字节跳动等品牌也纷纷入局。

IDC 表示,随着技术革新、政策扶持与产品升级形成合力,AI 眼镜市场进入高速增长通道,产品价格也更容易被消费者接受。综合来看,年初以来国内 AI 眼镜均价已从数千元降至千元左右。在王浩宇看来,随着下半年销售旺季来临,国内 AI 眼镜的整体出货量有望保持大幅增长。(@ IT 之家、@ XR 控)

3、xAI 的 AI 伴侣 Ani 和 Valentine 现已支持电话实时通话

xAI 公司旗下的 AI 伴侣 Ani 和 Valentine 现已开通专属电话号码,用户可直接拨打进行实时语音通话。

官方公布了两个 AI 伴侣的专属电话号码,用户可直接拨打进行互动。Ani 的电话号码是 +1 (325) 225-5264,Valentine 的电话号码是 +1 (607) 225-5825。

用户现在可以通过电话与名为 Ani 和 Valentine 的 AI 伴侣进行实时通话。

相关链接:

https://x.com/cb_doge/status/1956627604108128401 (@ 橘鸭 Juya)


03有态度的观点 

1、英伟达新研究:智能体的未来是小模型

日前,英伟达发布了一篇名为《Small Language Models are the Future of Agentic AI》(小型语言模型是智能代理 AI 的未来)的论文,其中指出:

小型语言模型(Small Language Models,SLMs)的崛起,标志着智能代理 AI(Agentic AI)发展方向的一次重要转向。

研究人员在文中表示,与业界普遍追捧的大型语言模型(LLMs)相比,SLMs 不仅在特定任务上已具备足够的处理能力,其固有的经济性和适用性也更为出色,为构建高效、可持续的 AI Agent 奠定了基础。

而据研究团队透露,尽管 LLMs 在处理通用和复杂任务上取得了突破,但此类模型在许多 Agent 的专用场景中存在明显的资源冗余问题,未能达到理想的成本效益标准。

而通过将重心转向 SLMs,研究者发现模型在执行重复性、专业化的任务时表现却更加高效,并极大地降低了运算和部署成本。

论文作者强调,经济性是推动 AI 从「展示品」迈向「生产力工具」必不可少的因素,而 AI Agent 的规模化应用依赖于更精细的成本与效能的平衡。

此外,该论文还提到,从 LLM 到 SLM 的转变背后,是整个行业对 AI 资源有效利用的战略性思考。

提出这一观点不仅是为了推动技术路线的演进,更旨在确保整个行业对 AI 发展的经济现实有更清醒的认识,帮助我们在性能和成本之间找到最佳平衡点。(@ APPSO)

2、OpenAI 总裁:OpenAI 的 AGI 之路

日前,OpenAI 总裁 Greg Brockman 接受了《Latent Space》的访谈,并在节目中分享了 OpenAI 在 AGI 的发展之路。

Brockman 指出,相比于前代模型,最新发布的 GPT-5 具备了更强的推理能力,而这也标志着 OpenAI 向 AGI 的过渡速度正在加快。

「尽管 GPT-4 在推理和对话方面取得突破,但其并未达到 AGI 水平。」Brockman 认为,要实现 AGI,OpenAI 需要解决模型可靠性和推理深度等挑战。他提到,应对这些问题的核心方法是强化学习(RL),并强调算力是推动 AGI 发展的关键因素。

Brockman 介绍,在本次更新中,GPT-5 的推理能力更接近 AGI 的需求,使 GPT-5 能在复杂任务中表现得更为「靠谱」。其还提到,GPT-5 在数学、编程和科研等领域的表现接近顶尖人类水平,从而也推动了科学研究的加速。

此外,Brockman 强调开源模型 GPT-OSS 的发布,这对 OpenAI 来说不仅是聚焦技术创新,更是在全球范围内推动「技术栈」竞争力。面对开源这一问题,Brockman 坦言,「开源将促进技术普及,并能为全球 AI 发展设定标准。」(@ APPSO)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。



注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    关键词
    // 相关帖子
    Coming soon...
    • 0
    今年国内智能眼镜出货量预计达 290.7 万台;ElevenLabs 推出商用 Eleven Music API丨日报RTRTE_Dev_Comm