音轨分割模SAM-Audio优化版:消费级GPU运行;2025儿童AI硬件图谱:290亿市场规模与高退货率博弈丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@瓒an、@鲍勃
01 有话题的技术
1、Dexmal 原力灵机提出 GeoVLA,打破 2D 视觉枷锁,让机器人看懂三维世界
Dexmal 原力灵机提出 GeoVLA 框架,采用双流架构在保留 VLM 语义理解能力的同时,引入专用的点云嵌入网络 PEN 和空间感知动作专家 3DAE,直接利用深度图生成的点云数据,赋予机器人真正的三维几何感知能力。
GeoVLA 是一个全新的端到端框架,其流程包含三个关键组件的协同工作:
语义理解流:利用预训练的 VLM(如 Prismatic-7B)处理 RGB 图像和语言指令,提取融合后的视觉-语言特征。
几何感知流:利用点云嵌入网络 PEN 处理由深度图转换而来的点云,独立提取高精度的 3D 几何特征。
动作生成流:通过 3D 增强动作专家 3DAE 融合上述两种特征,生成精确的动作序列。
LIBERO 评测结果
ManiSkill2 评测结果
真机任务评测结果
GeoVLA 在仿真和真机实验中均展现出对传统 2D VLA 模型的压倒性优势,证明显式 3D 表征在复杂操作中的不可替代性。
论文名称:
GeoVLA: Empowering 3D Representation in Vision-Language-Action Models
论文链接:
https://arxiv.org/html/2508.09071v2
项目主页:
https://linsun449.github.io/GeoVLA/
(@Dexmal 原力灵机)
2、SAM-Audio 优化版发布:剔除冗余编码器,消费级 GPU 环境下运行
针对 Meta 近期发布的「SAM-Audio」音轨分割大模型,第三方开发者通过移除视觉引导相关的非核心组件,实现了显著的显存优化。该版本使 Large 模型摆脱了对 A100 等高端计算卡的依赖,在主流消费级游戏卡上即可实现高精度的文本引导音频分离。
显存占用下降约 90%:通过剔除用于视频点击引导的视觉编码器和排序器,Large 版本的运行显存从原始的 90GB 压缩至约 10GB,Small 版本仅需 4-6GB VRAM。
全功能文本引导分离:保留了核心的 Text-Guided 能力,支持通过「Natural Language Prompt」精确描述提取目标,例如输入「人声」、「鼓声」或「狗叫声」即可实现特定声源的剥离。
支持视频音轨直接处理:原生支持视频文件上传,系统会自动提取音频流并进行分割处理,同时提供「Stem Mixer」功能,支持实时对比原始音频、提取分轨与残留背景音。
工程化部署门槛清零:开发者封装了「一键安装包」,集成了环境配置与 GUI 界面,并支持波形可视化,使原本复杂的实验室模型转化为即插即用的生产力工具。
开源项目,提供一键安装包,现已在 GitHub 发布并支持在主流 Windows 消费级 GPU 环境下运行。
Github:
https://github.com/0x0funky/audioghost-ai
( @Github、@karminski3@X)
3、上海联合商汤发布「云宇星空」大模型,支持自然语言调用三维空间数据
近日,上海市规划资源局联合商汤大装置正式上线全国规资领域首个基础大模型「云宇星空大模型」(专业版)。该模型通过 6000 亿参数的行业深度训练,将 AI 从简单的文本问答推向复杂的时空决策智能,实现了规资业务从「静态蓝图」向「数据驱动自适应调节」的工程化落地。
该模型具备五大核心能力:有问必答、智能调图、自动统计、图像识别与自动生成报告,覆盖从知识检索、空间分析到决策支撑的完整工作闭环。
6000 亿参数「1+6」多模态架构:基于商汤底层能力构建,包含 1 个行业基座模型与 6 个垂类模型,通过「智能调度引擎」协调多智能体(agent)协作,支持对文本、图像及空间数据的跨模态理解。
原生支持矢量数据库与空间分析:区别于通用 LLM,该模型后台挂载矢量数据库,支持自然语言调用二/三维空间数据,可实现「图文联动」。例如,通过指令直接调取沪派江南水乡实景风貌或在地图上高亮特定土地出让地块。
「坤舆经略」专属语料库确保 98% 准确率:由规资专家生产高质量问答与思维链(CoT),构建全国首个行业全贯通语料库。实测显示,其专有名词准确率达 98%,人工问答点赞率约 95%,远超通用模型在同等场景下约 40% 的得分。
数据「产品化」脱敏供给机制:针对政务数据敏感性,探索出一条按需供给、脱敏处理后产品化的路径,打通了银联消费数据等外部因子,用于动态优化 15 分钟生活圈等城市规划指标。
目前专业版已部署于政务内网,嵌入「一厅八室」等核心业务系统;公众版正在开发中,计划通过智能接口形式向社会开放空间数据能力。
(@智东西)
02 有亮点的产品
1、比亚迪 x 火山引擎官宣座舱深度合作:豆包将融入 DiLink
据 36 氪报道,比亚迪与火山引擎在「FORCE 原动力大会」宣布达成智能座舱深度合作,豆包大模型深度融入比亚迪 DiLink 系统,覆盖语音交互、内容推荐与出行服务等多场景。
当前,座舱大模型合作已覆盖比亚迪旗下仰望、腾势、方程豹、王朝、海洋五大品牌的全量在售车型,并同步拓展至智能进入(全场景数字钥匙)、座舱娱乐与智能语音等领域。
比亚迪集团高级副总裁、汽车新技术研究院院长杨冬生表示:「火山引擎和比亚迪在智能座舱领域的合作,从联合开发到上车落地仅用时 4 个月,这不仅展现了双方高效协同的『中国速度』,更是开放生态的活力。」
双方在大会现场以腾势 N8L 展示了基于豆包大模型的座舱体验:车载语音助手可实时检索互联网动态资讯,并深度整合抖音集团生态的内容矩阵,以内容卡片与短视频等多元形式提供问答服务,覆盖从休闲聊天到专业查询的需求。
除座舱合作外,火山引擎与字节跳动 Seed 团队、比亚迪在锂电池研发领域持续开展「AI for Science」联合探索:通过联合实验室等形式,三方共建「AI + 高通量联合实验室」,围绕快充、寿命与安全等课题推进动力电池技术进步。
( @APPSO)
2、消息称 Meta 已启动 Quest 4 研发,超轻量级头显 Quest Air 延期至后年
据外媒报道,Meta 已决定将其超轻量级头显 Quest Air 延期至 2027 年上半年,目前该公司已启动定位游戏场景的 Quest 4 头显研发工作。据介绍,Meta 这一 Quest Air 头显采用分体式设计,配备独立计算单元,原本计划明年(2026 年)推出,主要面向混合现实办公、观影等及其他以坐姿为主的使用场景,但如今被推迟发布,这是因为 Meta 计划为团队「留出更多喘息空间,把细节打磨到位」。
此外,外媒透露 Meta 已正式启动下一代主线头显 Quest 4 的研发工作,该产品将聚焦沉浸式游戏体验,相较 Quest 3 带来「幅度明显的升级」,同时还将显著降低产品制造成本。这暗示 Meta 可能逐步放弃长期以来通过补贴压低硬件售价的策略,转而推动旗下 Reality Labs 虚拟现实业务向盈利方向过渡。
需要指出的是,Meta 的硬件路线图向来变化频繁,在产品正式发布前,公司内部往往会反复立项、调整甚至取消项目。只有当某款设备真正接近量产和上市时,相关信息才会逐渐变得清晰。在此之前,Quest Air / Quest 4 两款产品的具体规格及上市时间,都存在大幅变更的可能性。
(@IT 之家)
3、2025 儿童 AI 硬件图谱:290 亿市场规模下的多模态智能体演进与高退货率博弈
2025 年儿童 AI 硬件赛道爆发,超 15 家公司融资,30 余款新品面市。市场核心正从传统的「内置语音盒」向具备多模态交互能力的「智能体」演进,但在供应链极速迭代的同时,行业仍面临用户满意度低及部分产品退货率高达 40% 的技术与商业化瓶颈。
研发周期极端分化:深圳供应链体系下,基于公版方案的模仿款产品仅需 1 个月即可面市;而深度集成的 AI 硬件产品(含自研模型策略与软硬结合架构)研发周期普遍在 1 到 1.5 年。
交互逻辑分歧:行业出现两种主流技术路线。一种是以「Lookee」为代表的「无屏纯语音」方案,旨在降低用眼负担;另一种是以「Ling!小方机」为代表的「屏幕作为表达器官」方案,屏幕不用于内容消费,而是配合摄像头进行多模态物理世界识别(World to Classroom)。
高退货率与留存挑战:电商平台数据显示,AI 玩具类产品满意度不足 21%,部分品牌退货率在 40%-50% 波动。原因在于单纯「情绪价值」的交互频次难以维持,功能性(如英语口语、百科问答)正成为抗退货的核心指标。
成本结构与订阅制转型:由于 LLM 调用产生持续 API 费用,国内硬件商正试图借鉴海外市场经验,将单纯的硬件销售模式转向「硬件+订阅制」。目前海外用户对订阅制接受度较高,国内市场仍处于成本摊薄的探索期。
IP 与内容壁垒:以「跃然创新」为代表的厂商通过引入「奥特曼」、「小猪佩奇」等顶级 IP 授权,利用 IP 溢价抵消硬件同质化竞争,将 AI 交互视为 IP 资产的价值延伸。
目前已有超 30 款产品在售或处于众筹阶段,价格跨度从百元以下(简单语音盒)到 1500 元以上(多模态机器人),主要通过电商渠道及达人直播驱动销售。
(@多知)
4、混元支持 ETC 首款 AI 智能体,有问必答可执行的畅行搭子
最近,基于混元大模型,腾讯云和安徽驿路微行科技有限公司联合推出 ETC「助手 Agent」,只需通过文本或语音发出指令,智能体即可精准理解并高效执行。
官方数据显示,自今年 4 月启动内测以来,该智能体已服务超百万用户,问答准确率达 95%,问题解决率达 90%。
ETC 助手基于腾讯混元大模型,创新性地融合多模态交互技术,让用户不仅可以通过传统的文本输入方式提问,更可体验 AI 增强的语音交互方式获取 ETC 服务。
在多个应用场景中,「助手 Agent」更像是一位围绕用户真正所需,有问必答、可咨询可执行的「畅行搭子」。
无论是 「OBU 设备如何安装」 的基础咨询,还是 「帮我查通行记录、开发票」 的复合需求,用户通过文本或语音发出指令,智能体即可精准理解并高效执行。在出行场景中,用户只需对助手 Agent 说出: 「开启畅行模式」 ,智能体调高设备灵敏度,获得设备快识别、高速快抬杆的畅快通行体验。
在感知层,以智能硬件为切入点,「助手 Agent」可通过 105 种状态监测算法实时采集设备运行数据,并借助语音交互与关键状态播报,让「服务找人」有据可依。
在智能核心层,「助手 Agent」引入了涵盖行业规则、服务流程的通用知识库,并基于腾讯混元等底层大模型,构建了稳定可信的 ETC 基础服务能力。
在此基础上,「助手 Agent」在执行层,既可作为行业百科答疑解惑,也能作为服务专家提供一站式支持,更可实现语音直接控制设备,达成「所说即所得」的自然交互。
(@腾讯混元)
03 有态度的观点
1、刘知远:2030—2035 年可实现 AGI
据腾讯科技报道,清华大学计算机系副教授刘知远及其团队的研究登上《自然 · 机器智能》封面,正式提出用于量化大模型「能力密度」的「密度法则」(Densing Law)。
基于对 51 个主流大模型的回测,该研究指出 2023 年至 2025 年间,大模型的智能密度以每 3.5 个月翻倍的速度加速演进,意味着每 100 天即可用一半参数量达到当前最优模型的相当性能,成本也随之减半。
刘知远直言,若一家模型公司发布新品后「3 至 6 个月无法收回成本」,商业模式将难以为继,因为后来者很快能以四分之一的资源实现同等能力。
「用 AI 制造 AI」被其视为 AI 时代生产力的标志与产业突围方向。刘知远将「密度法则」与「规模法则」(Scaling Law)视为「硬币的两面」:
前者强调通过架构、数据治理与学习方法的持续创新,用更小的参数承载更强能力;
后者则刻画参数规模扩张带来的能力持续上升。
他指出,在 ChatGPT 引发全球投入后,密度翻倍周期由约 5 个月收缩至约 3.5 个月,速度远快于摩尔定律的 18 个月节奏。这一趋势使云端 API 服务竞争极度激烈,最终可能只剩拥有海量用户与强大技术迭代能力的头部厂商;与此同时,约束条件清晰、对功耗与响应时延敏感的「端侧智能」将成为创业公司更具确定性的机会窗口。
关于多模态进展,刘知远将 Google 最新发布的 Gemini 3 视为里程碑:在图像生成中对文字的高一致性与可控性体现了模型对世界理解与生成过程的「逐层细化」。
他推测该能力不仅依赖 Diffusion,也很可能融入自回归思想,从而实现生成一致性的新范式;这也印证了密度法则的外延——只要某种智能能力可被实现,未来一定能在更小的终端上运行,如手机、PC 或车载芯片。
他对 AI 的长期影响持乐观态度,认为 2030—2035 年可实现全球普惠的 AGI,互联网的主体将不再只是人类,还会有数不尽的智能体;虽然训练厂商会收敛,但「AGI 发展还没收敛」,推理算力需求将爆炸式增长,人机协同将成为常态。
( @APPSO)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
作者提示:个人观点,仅供参考