光帆首款带摄像头 AI 耳机首发价 1999 元丨日报

图片


开发者朋友们大家好:


这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。



本期编辑:@koki、@鲍勃



01 有话题的技术


1、Google Beam 推出群组会议新实验:集成 HP 沉浸式显示屏,支持非原生设备 1:1 画面渲染与空间音频

Google 旗下真感视频通话平台 Google Beam 宣布推出群组会议实验性更新。该更新通过集成 HP Dimension 的沉浸式显示技术,可将使用非 Beam 原生设备(如普通电脑、手机)接入的参会者,自动以 1:1 真实人体比例渲染并排布在虚拟圆桌周围,配合空间音频技术,以消除混合会议中远程用户的空间割裂感


  • 非原生设备 1:1 空间重构:引入对非 Beam 硬件的兼容渲染算法。当外部用户通过普通视频流接入时,系统能结合 HP Dimension 显示技术自动调整透视与比例,将其以 1:1 的真实尺寸定位在虚拟会议桌的相应位置。

  • 声源与视觉锚定(Spatial Audio):采用动态空间音频算法,将每个参会者的音频通道与他们在屏幕上被渲染的几何坐标进行实时绑定,确保声音的方向性与视觉位置完全一致。

  • 端侧多场景自动校准:空间布局与音频重定向算法在后台自动运行。无论用户处于家庭还是办公室环境,均无需手动配置或环境预标定

  • Zoom 及 Workspace 原生互操作:推出「Google Beam for Zoom」集成方案。除了原生的 Google Workspace 支持外,允许 Zoom 用户在 Beam 硬件生态中直接调用其协作工具。

  • 交互效能指标:Google 披露的研究数据显示,该空间渲染与声相配准方案使参会者的社交连接感提升 50%,会议发言贡献度自评提升 21%


( @blog.google)



2、面壁智能开源 BitCPM-CANN:国内首个基于昇腾原生训练的 1.58-bit 三值大模型,显存占用降至 1/6

图片


面壁智能联合清华大学、OpenBMB 开源社区发布并开源了 BitCPM-CANN 系列端侧大模型。这是国内首个完全基于国产算力平台(华为昇腾 Ascend)原生实现端到端 QAT(量化感知训练)并开源的三值(1.58-bit)大模型。该模型在推理阶段可释放约 6 倍显存红利,使 8B 规模大模型在主流端侧设备的部署门槛大幅降低


  • 1.58-bit 原生三值 QAT 训练:摒弃传统的 PTQ(后训练量化)路径,在训练初始阶段即采用量化感知训练,使模型权重在三值(-1, 0, +1)约束下原生生长,在极低位宽下最大化保留信息密度,避免了高精度模型后期压缩带来的性能陡降。

  • 华为昇腾原生低比特训练栈:基于 MindSpeed × Megatron-LM 主干搭建低比特训练底座。从底层的量化算子、并行策略、融合算子到 32K 长序列支持,均在昇腾 NPU 上原生实现,解决了此前国产芯片通常需依赖 CUDA 训练再迁移的工程痛点。

  • 0.5B–8B 矩阵与高能力保留率:包含 0.5B、1B、3B、8B 四个模型尺寸。在常识、阅读理解、数学与推理等 11 项任务评测中,1B、3B、8B 模型对比同尺寸全精度 MiniCPM4 家族,能力保留率达 95.7%–97.2%;0.5B 模型保留率达 90.1%。

  • 软硬件协同对齐 2-bit 推理生态:该模型精准填补了端侧芯片在低比特模型供给侧的空白,可直接适配高通骁龙 8 Gen 4 等在硬件层面原生支持 2-bit 推理的新一代移动端处理器。


https://huggingface.co/collections/openbmb/bitcpm-cann


https://modelscope.cn/collections/OpenBMB/BitCPM-CANN


(@面壁智能)



02 有亮点的产品


1、飞拓星驰(FitX AI)发布硬件体感游戏平台 Fit-OS:端侧实时 3D 动捕达到 120 FPS,定位误差缩减至 2.8 厘米

图片


空间智能初创公司飞拓星驰(FitX AI)宣布完成数百万美元融资,并推出空间智能智能体(Agent)平台 Fit-OS。该平台通过自研的端侧实时 3D 动捕引擎,在无需穿戴式外设的条件下,实现客厅等室内场景下的高精度、低延迟体感交互与多智能体协同内容生成。


  • 端侧实时 3D 动捕引擎指标:支持输出全身 133 个 3D 关键点(覆盖表情、手指及深度估计),在不增加模型参数的前提下,将 H3WB 数据集单点平均误差从 5.7 厘米降低至 2.8 厘米(降幅超 50%);在 iPhone 13 端的推理速度达到 120 FPS 以上,相较于 Google MediaPipe 的全身动捕方案(约 20 FPS)提升 6 倍

  • Fit-OS 四层 AI 原生技术栈:系统由下至上分为四层:L1 空间感知引擎(提供实时 3D 动捕)、L2 多模态理解大脑(融合语音、表情、情绪及上下文)、L3 多智能体协同生成中枢(动态生成游戏内容、角色及场景)、L4 智能体记忆(Agentic Memory,持续记录并沉淀用户长期行为偏好与习惯)。

  • 多智能体协同与动态自适应生成:系统利用多个专项智能体协同调度代码、音乐和美术生成端,支持用户通过自然语言低门槛创作游戏内容;平台可根据不同用户的历史交互数据及实时运动表现,动态自适应调节游戏难度,实现多玩家间的体验平衡。

  • 高比例 AI 协同开发流:飞拓星驰内部研发与美术工作流中,超 90% 的内容通过自研的内部 AI 智能体协同完成,大幅压缩了传统游戏和交互内容的生产周期


(@多知)



2、光帆科技推出首款带摄像头 AI 全感耳机:集成自研端云协同 AI OS 与 4G eSIM 计算充电盒,首发价 1999 元

图片


图片


前小米 OS 负责人董红光(Dong Hongguang)创立的光帆科技推出 AI 全感穿戴设备。该产品通过集成曲面摄像头、eSIM 4G 及 GPS 模块的异构硬件组合,搭载自研端云协同 AI OS,支持多模态主动式智能体交互,可脱离手机独立联网运行。


  • 集成曲面摄像头与向量化隐私处理:耳机端搭载定制树脂材质曲面镜头,通过后期算法还原图像纠偏。摄像头工作时伴有蓝色指示灯与快门音提示;原始视觉数据经 AI 实时理解后以向量化形式存入记忆系统,本地及云端均不存储原始图像,且不对用户开放拍照与录像功能。

  • 计算充电盒集成 eSIM、GPS 与指纹识别:充电盒作为无屏微型算力与通信节点,内置 eSIM 4G 模块、GPS 定位和指纹认证模块,支持耳机和手表脱离手机实现独立联网、定位及多模型运行。

  • 自研端云协同 AI OS 调度多模型:系统采用端云协同架构,可跨设备联动调度耳机(视听感知)、手表(触屏与关键信息呈现)及充电盒(联网认证)。系统内运行视觉理解、语音合成与任务规划等多类模型,目前语音交互采用半双工通信模式

  • 11 克挂耳式机身集成 105mAh 电池:耳机单边重 11g,采用挂耳式工学设计,内置 105mAh 电池。单次充电可连续播放音乐 15 小时或通话 9 小时,搭配充电仓综合续航达 90 小时。

  • 原生智能体应用管理与自定义技能:系统已接入滴滴、航班管家等数十款主流应用以降低手机调用频率;并计划推出「技能学院」,支持用户通过自然语言训练并构建自定义智能体(Agent/MCP/Skill)能力。


(@智东西)



3、正保发布首款 AI 录音卡 V1:抢先价 698 元,内置垂直行业定制化摘要模版与专业术语识别能力

图片


金融财会培训机构正保发布其首款 AI 硬件产品「正保 AI 录音卡 V1」,首发抢先价 698 元。该产品依托正保在职业教育领域的行业语料积累,主打面向财会、医学、法考、建工专业人群的垂直场景记录与结构化知识整理


  • 行业定制化摘要模版:系统内置针对财会、医学、法考、建工等垂直行业的定制化摘要生成模版,将录音文本自动转化为符合特定行业逻辑的结构化知识。

  • 垂域专业术语精准识别针对性优化 ASR 语音识别模型,支持精准识别和转写会计术语、税务政策、审计准则等高度专业化的行业词汇,解决通用录音软件在专业场景下的幻觉与识别错误。

  • 698 元定价切入红海市场:产品以 698 元定价切入目前拥有 200–300 个品牌的 AI 录音卡细分市场,成为正保继学习机 Z1、Z2(累计销量 5 万台)后的又一次硬件尝试。


(@多知)



4、帧跃科技获千万美元天使轮融资,研发整合 DiT、程序化规则与物理渲染的交互式视频平台 Leadde

图片


AI 交互式视频初创公司「帧跃科技」(成立于 2025 年 6 月)宣布完成千万美金级天使轮融资,投资方包括璞跃中国、创新工场、零一万物、国谦资本、盈动资本及 G5 Capital。公司正基于融合生成式模型与实时媒体基础设施的架构,开发面向全球专业及企业级用户的首个平台级产品 Leadde,旨在解决生成式视频在持续交互中的上下文理解、状态一致性与实时控制难题


  • 「三位一体」底层架构:集成 DiT(Diffusion Transformer)内容生成、程序化规则(Coding)生成以及基于三维空间和实时渲染的物理引擎生成,以保障交互过程中的状态连续性、长期记忆与物理真实感。

  • 混合编排与动态调度机制:系统根据输入任务约束在离线高质量生成与实时低延迟生成之间动态切换。强画面表现任务主要调用 DiT 模块,强逻辑控制任务依赖代码规则生成,强空间动作一致性任务则调动物理与渲染引擎。

  • 双核技术团队背景:创始人杨昌鹏前华为云媒体创新 Lab 首任主任)拥有媒体基础设施、实时渲染与资源调度系统背景;联合创始人兼 CTO 李明磊(前华为云多模态方向首席科学家)主导过初代盘古大模型训练,具备大规模多模态生成式模型工程化经验。

  • 面向企业级(B2B)的交互式视频界面:避开 C 端娱乐工具定位,直接切入全球专业与企业用户场景,将企业内部的文档、PPT 等静态媒介转化为可生成、可编辑、可追问、可反馈的实时视频交互界面


( @PLUGANDPLAY)


03 有态度的观点


1、龚毅:懂 AI 本身正在贬值,能在关键低频决策中做判断的人才是未来的稀缺品

图片


日前,尼尔森 IQ 通信及科技业务总经理龚毅在 2026 AI Partner 产业大会的一场接受采访的对话中提出,写代码和懂 AI 技术本身正在快速贬值,因为这些技能极易被大模型工程化复制。


龚毅指出,高频、标准化且需要熟练度的后台业务流程往往最容易被 AI 替代。未来人才的核心壁垒,在于是否能够在一些低频、高影响力且关系复杂的业务决策中(例如打造爆款单品或建立有溢价的合规品牌)给出精准跨界判断


在 AI 时代,人才的竞争优势在于促使员工的能力「向左移」——向更靠近市场、人际沟通与核心创意等高价值环节靠拢,而不是死守着容易被自动化替代的技术执行岗。


( @APPSO)



04 社区黑板报


招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)

1、DimOS 具身智能黑客松 · 上海

Dimensional 是一家做开源机器人操作系统的高速增长的初创公司(硅谷背景,总部旧金山,深圳设有办公室)。下周他们和 muShanghai 在上海的阿里中心办一场具身智能黑客松 - 现场提供 10+ 台宇树 Go2 机器狗真机和全套的 DimOS Python SDK,让你用 Python 直接开发具身智能应用。Dimensional 的工程师全程驻场,和你一起 build。


5.26 - 5.28

上海阿里中心 T1


两个赛道:


  1. 自主与导航 - 让机器人在陌生环境里自己认路、规划、行走

  2. Agent - 用大模型做机器人的大脑,给它指令,让它自己拆解任务并执行


全场大奖:宇树机器狗 Go2 真机带回家

赛道冠军:每队 ¥3,500

获奖团队直通 Dimensional 招聘流程,提供实习和全职岗位机会(早期期权 + 极具竞争力的薪资)


不需要硬件背景,带电脑就行。吃的、喝的、机器狗全包。


报名请扫描二维码或访问链接:

https://luma.com/vprodwg0(需要科学上网)


主办方联系方式(微信号):jetsonearth


图片

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

作者提示: 个人观点,仅供参考


注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    关键词
    // 相关帖子
    Coming soon...
    • 0
    光帆首款带摄像头 AI 耳机首发价 1999 元丨日报RTRTE_Dev_Comm