主动交互和情境感知,AI 硬件是脱离手机屏幕掌控的蓝海机会丨硬件和端侧模型专场@RTE2025 回顾
在本届 RTE2025 大会上,来自产业界和学术界的多位专家深入探讨了 AI 硬件、端侧小模型的发展趋势、架构创新、低功耗解决方案以及语音技术与大模型的深度融合。
Rokid 全球创新产品、工程和开放生态负责人赵维奇、FoloToy 联合创始人郭兴华、声网 AIoT 产品总监冯晓东、RockAI 创始人&CEO 刘凡平、小米新一代 Kaldi 团队核心成员朱涵与姚增伟、以及 Plaud 合伙人&云端研发负责人刘占坤、数伴创始人李巍佳、盒智科技创始人鲁雅琦、CyberPartner 魂伴科技创始人&CEO 真地等分享了他们在各自领域的实践经验和独到见解。
Rokid 全球创新产品、工程和开放生态负责人赵维奇主持了活动主题分享和圆桌讨论环节。
郭兴华:FoloToy 的 AI 玩具共创与创新实践
2023 年,在 ChatGPT 的浪潮刚卷向全球时,FoloToy 的两位创始人——同时也是两位孩子的父亲——并没有急着去做什么高深的算法研究。这么好的 AI 技术,能不能通过孩子们最熟悉、最贴身的载体——玩具,来传递给更多人?
为了避免陷入「技术自嗨」的泥潭,FoloToy 选择了「Build in Public」。他们在 B 站等社交媒体上公开分享想法和每一次尝试,让用户第一时间参与进来,提供最直接的反馈。并在社群里发起的一轮「付费内测」:找 100 个愿意付费的用户。结果,3-4 天内,100 位用户就到位了,第一轮小众筹顺利启动。
在设计角色的过程中,他们原本为故事机设置了 7 个不同的 AI 角色。结果发现,最受孩子们欢迎的不是知识渊博的,而是那个专注于情感陪伴的「火火兔」。
FoloToy 随后做了一系列「减法」和「取舍」:
不用摄像头: 避免孩子产生被监视、不安全的感觉;
不做记录公开: 当一位孩子说,如果交流内容被看到,玩具就是对自己的「背叛」后,他们宁愿牺牲家长对聊天的窥视欲,也要维护玩具「被信任的朋友」的角色;
不堆砌硬件: 秉持着「用 AI,但不尽用 AI」的理念,不追求极致指标,而是让 AI 充当辅助,让玩具深入人心。
仿生记忆: 技术上采用仿生记忆模型,通过对聊天记录的抽象和抽离,记住孩子的喜好、生日等关键特征,确保每一次回应都是有「温度」的,而不是干巴巴的标准答案。
目前 FoloToy 的产品已销往 20 多个国家和地区,形态包括毛绒玩偶,以及与字节跳动、招行等品牌合作的 AI 产品,如内置财商课程的玩具,专为 3-9 岁儿童提供分年龄、有情感、正向引导的陪伴。
「AI 玩具最重要的不是回答问题,而是『被好好回答的感觉』。」
郭兴华
FoloToy 联合创始人
冯晓东:AI Agent+IoT 技术方案新场景创新应用
声网 AIoT 产品总监冯晓东首先提出了一个核心思考:AI 时代与十年前的「故事机时代」到底有什么本质区别?答案在于:AI 已经让音箱从命令式(Command-based)转向了陪伴式(Companion-based)。
这种变革体现在四个方面:
功能: 从「今天天气多少?」到「今天有点冷,记得多穿衣服」,回复更具情感;
交互: 从「关灯」的命令式,到「我今天回来晚了」后,AI 自动把灯开了,这是对用户意图的理解;
内容: 给你唱歌的不再是云端歌手,而是「天天陪你的 AI 伙伴」,用自己的音色哼一首你此时此刻想听的歌,内容更具个性化;
模式: 最大的革命是商业模式,从传统的「卖硬件出货量」,转向了订阅模式。AI 带来的持续对话需求和持续价值,才是长期付费意愿的基础。
声网作为全球实时网络服务商,通过解决人与人沟通的实时性问题,将这些经验应用到了人与 AI 的对话中,致力于将延迟降到最低,并解决真实世界的干扰问题。声网在全球 200 多个国家和地区设有大网,实现了「就近上高速、就近下高速」,保证从终端到 AI 服务器的延时最低可达 650 毫秒。凭借多年积累,其抗丢包能力极强,在 80% 丢包的情况下,仍能保证实时对话没有卡顿。
同时,声网提供 AI 降噪、背景人声过滤和声纹锁定,致力解决「AI 在听谁说话」的问题。打断延时低至 340 毫秒。更关键的是语意理解,AI 能识别出你是在附和,还是真的想打断,甚至能识别小朋友断断续续的表达,避免在你只说了「我、我、我」时就匆忙回答。为了加速开发者的落地,声网还和社区一同支持了一套开源框架 TEN Framework。开发者可以在云端快速搭建 AI Agent,在半天之内就能获得完整的体验。声网针对低功耗端侧设备,推出了媒体流加速 RTSA 低功耗 SDK,内存占用极小,目标是让未来所有的硬件都成为 AI Agent 的入口。
「AI+IoT 的解决方案,让产品形态从传统的功能驱动(告诉我天气),走向了「我有点累了」就能自动关灯、调音乐的复杂任务自动分解。」
冯晓东
声网 AIoT 产品总监
刘凡平:端侧大模型的架构创新与应用
RockAI 创始人&CEO 刘凡平早在 2012 年微软工作时就提出了一个观点:真正的智能是从「主动服务」开始的。进入大模型时代,他看到了云端部署成本高、延时高,而且难以实现真正的个性化,而端侧大模型的核心使命,绝不是简单地把云端模型参数「弄小一点」。
RockAI 要做的是从底层创新,改变网络结构,相当于要研发 AI 时代的「电动汽车」。
他们没有使用传统的上下文来做记忆,而是使用原生记忆能力(Native Memory),将记忆模块设计在模型的每一层神经元中。这意味着,训练和推理是同步进行的。你和它聊天的过程,就是它改变参数、学习新知识的过程,这才是真正意义上的「海马体」。
为了解决高功耗的成本难题,他们采用选择激活机制(Selective Activation),借鉴脑科学原理,模型在运算时不会激活所有的神经元,而是根据不同任务只激活特定的神经元。
基于这种架构,RockAI 的模型实现了:1 秒端到端实时响应;完全离线使用;能部署在树莓派等低功耗设备上;已量产应用于 AIPC、手机、平板,甚至搭载在具身智能机器人上,能实现低延迟的多模态交互。
刘凡平还强调,群体智能是人类通用智能是真正到来的时刻:每台设备需要拥有自己的智能,每台设备的智能之间能相互影响,相互传承,形成更强大的智能。
「衡量一个模型价值的关键,是它是否具备『自主学习』和『记忆』能力。」
刘凡平
RockAI 创始人&CEO
朱涵与姚增伟:新一代 Kaldi 高效语音合成技术
小米新一代 Kaldi 团队的核心成员朱涵和姚增伟展示了该团队在语音技术领域的前沿探索和高效解决方案。该团队专注于开源项目 K2、LHCTSE 等以及 Zipformer 等创新技术。本次分享重点聚焦于语音合成的 ZipVoice、ZipVoice-Dialog 模型,以及声码器技术 Flow2GAN。
朱涵首先介绍了高效零样本语音克隆模型 ZipVoice。该模型借鉴了为语音识别设计的 Zipformer 架构,通过 U-Net 的多尺度建模、卷积与注意力机制的融合,并利用注意力权重的多侧复用,使模型参数量相较于传统 Transformer 模型(如 DRT)在性能相似时降低了约三分之二。
为解决语音合成中「文本 token 数远少于语音 token 数」导致的对齐难题,团队设计了「平均上采样」方案,为模型提供了稳定的对齐先验,将内容可懂性错误率从 20% 以上大幅降至 1% 左右。并通过 Flow Distillation 蒸馏技术,将模型推理步数降至 4-8 步,极大地提升了推理效率。
针对更复杂的对话语音合成场景,团队推出了 ZipVoice-Dialog。他们探索了非自回归建模方式,通过先用单说话人数据预训练,再用对话数据进行微调的策略,有效地解决了多说话人直接训练的难题。同时,在 ZipVoice 架构基础上增加说话人轮次 Embedding(Speaker-Turn Embedding),作为说话人角色的提示,减轻了模型的学习压力。团队还鉴于对话语音数据集的稀缺,构建了对话语音数据集 OpenDialog。
现有主流的 GAN 方案(如 BigVGAN)推理速度快但训练慢且不稳定,而 Diffusion 方案训练稳定但通常需要多步推理,计算代价高。姚增伟介绍的 Flow2GAN 声码器技术旨在从压缩音频特征中重建高质量音频波形,结合现有主流 GAN 方案(单步推理快但训练不稳定)和 Diffusion 方案(训练稳定但需多步推理、计算代价高)的优点,并针对性地调整了 Flow Matching 预训练阶段,以适应音频数据建模,并通过结合 GAN 策略进行细节优化,最终实现了单步或两步的高质量音频生成,确保了高保真度的同时,显著提升了推理速度和稳定性。
「我们希望能够做不仅性能优异,而且运行非常高效的开源智能语音系统。」
朱涵
小米新一代 Kaldi 团队的核心成员
姚增伟
小米新一代 Kaldi 团队的核心成员
刘占坤:关于语音和大模型结合的思考
Plaud 合伙人&云端研发负责人刘占坤认为对话不仅仅是人和人简单的语言的交换,实际上是人类对于整个世界的认知、判断、经验,甚至是一些创造力的实实在在的投射。Plaud 坚信「对话即智能」。律师谈判、医生问诊、顾问复盘,这些高价值工作绝大多数发生在对话中,但这些智能却长期被忽略,没有被沉淀。大模型的出现,让对话从简单的信息流,变成了可以复用的智能语言资产。但问题是,传统的录音笔笨重,AI 硬件又需要「唤醒词」,都会打断对话中最珍贵的「自然流」。
Plaud 选择了一条「软硬结合」的道路,目标是为这些「对话工作者」打造一个大模型时代的智能平台。
在硬件方面,Plaud 采用轻度、线性的降噪策略,只过滤极端干扰,尽可能保留语音中的原始特征,确保大模型拿到的是「高保真、无失真」的数据。 Plaud 还创新性地引入了骨传导传感器,实现了高保真的通话录音。Plaud 的硬件就是为了信息捕获而生的。
在软件方面, 针对真实世界多语言、高噪声的环境,Plaud 构建了「多模型协同的语音处理方案」,在端侧就进行语种判别。他们支持用户在对话时点击按钮标注重点,将人的关注点和大模型的关注点进行实时对齐。捕捉和提取只是基础,针对 Plaud Intelligence 来说,核心不是做信息的「搬运工」,而是深度洞察的提炼者。同时,Plaud 利用大模型的记忆力和推理逻辑,能贯穿多个会话,找到语言背后真正的「动因」,并补充外部知识。同时 Plaud 还可以关联日程的上下文,所有的这些信号我们的目的只有一个,让大模型能够站在你的视角进行思考,真正做到人和大模型的实时对齐。
「Plaud 坚信『对话即智能』。」
刘占坤
Plaud 合伙人&云端研发负责人
赵维奇:从多模态到智能体:AI+AR 驱动的人机共生
Rokid 全球创新产品、工程和开放生态负责人赵维奇首先指出指出随着 AI 硬件第二轮革命的开始,AR 将成为 AI 的最佳载体,重新定义空间计算和人机交互范式。他强调,未来的交互将是机器「更懂自己」的共生阶段,其中蕴含着巨大的商业机会。
他指出,AI 改变了创造力(AIGC 普及)、AI 硬件改变了交互力(物理材质带来「温度」感)、实时网络改变了连接力。这将推动人机关系从虚拟智能走向物理智能,即人机共生。
Rokid 致力于做人能戴出去的、更友好的眼镜形态。AR 通过摄像头、麦克风等所有终端作为感知入口,AI 帮助理解意图和场景,实现更主动的预判。 Rokid 领先的手势算法,能实时抓取、拉扯、握手等,将人类与数据的沟通从 2D 平面升级为空间计算。其产品支持在行驶的车中打开多个屏幕、裸眼 3D 等沉浸式空间智能,并支持支付、翻译、题词等轻空间场景,还是全球唯一在太空服役的 AI 产品。
赵维奇认为 AI 将成为「超级大脑」,更好地理解环境和用户「自己本身」,知道「你在哪里、在干什么、希望做什么」。他认为未来的目标是实现:无感化、高效率、情感化、共生,让 AI 更像人,从而让人更自由。真正的科技向善,是帮助那些有缺陷的人,去增强长处,把短处变得「无感」。
「产品的好用不是功能层面,而是它很贴心,该出现的时候出现,不该出现的时候不要出现。」
赵维奇
Rokid 全球创新产品、工程和开放生态负责人
圆桌讨论:2026 年,哪些端侧能力将成为现实?
本次主题为「2026 年,哪些端侧能力将成为现实?」的圆桌讨论由 Rokid 全球创新产品、工程和开放生态负责人赵维奇主持,参与讨论的嘉宾有数伴创始人李巍佳、盒智科技创始人鲁雅琦、CyberPartner 魂伴科技创始人&CEO 真地。
主持人赵维奇首先抛出了一个所有端侧硬件创业者都关心的问题:在 AI 硬件新一轮革命中,哪一项端侧能力最有机会在未来两年内真正落地并被用户感知?以及结合嘉宾各自的产品方向的实际场景判断一下,哪一项能力大家觉得最重要?
三位嘉宾一致将焦点投向了「主动交互/感知」。
李巍佳强调,其二次元桌面硬件(数字伴侣)的核心突破就在于主动交互。他指出,真正的差异化在于 AI 能够通过视觉模型实时理解用户行为(如打哈欠),并根据这些行为主动发起互动(如询问是否需要咖啡)。这种实时性必须依赖硬件驱动,通过桌面常亮设备持续获取信息,而无法通过具有延时问题的云端模型实现。他认为,核心不是 AI 回复,而是 AI 了解后主动发声。
鲁雅琦则从效率和场景竞争角度切入,认为最容易落地的是过往必须通过一对一人工服务解决、且对延时要求极高的场景,如客服、实时翻译等。她指出,成年人最合适的传感器是眼镜,而对于儿童产品,挂脖设备更轻巧且离五感更近,能收集更多数据。她认为 AI 硬件是脱离手机屏幕掌控的蓝海机会,避开了与短视频、游戏等巨头在「屏幕内时长」上的竞争。
真地强调了「AI+」和「+AI」的区别:前者是技术驱动,用 AI 重构旧有范式;后者则是需求驱动,在用户不变的底层需求(如陪伴、社交)之上增加AI能力。他认为,在定义用户需求时,必须是「+AI」,清晰识别需求更为重要。
赵维奇总结,所有人都想做主动感知,但最大的瓶颈在于硬件的功耗和散热限制,导致感知不准确、不实时,而主动感知恰恰是助手向伴侣升级、理解用户上下文和生活习惯的关键。
当讨论转向如何让设备「懂人」时,嘉宾们对硬件、软件和目标人群的重要性进行了权衡:
李巍佳强调匹配人群是最重要的。他专注于 00 后、10 后等二次元群体,认为年轻人更愿意接受新科技。他指出,真正的陪伴感建立在用户喜欢的 IP 形象基础上,并结合用户在核心场景(如桌面)的行为,通过持续询问和观察来一步步了解用户习惯。
鲁雅琦指出软硬件一致的极致体验是最重要的,是确保产品在特定场景中是无可替代的最优解。她选择了「学生」这一最大基数人群,并提出 AI 时代的新壁垒在于情感算法:一种是效率型的算法,解决精准推荐;另一种是情感上的「懂你」,构建出情感黏性。这种黏性让用户即使面对性能更强的产品,也「不想换我的老朋友」。她强调,实现精准分发的关键是建立用户行为的反馈闭环,例如通过孩子「摇一摇」设备来代表对当前话题的「喜恶」判断,从而帮助平台算法迭代。
真地认为算法是灵魂,硬件是纯粹的载体,但体验居于首位。他提醒,「懂你」并不意味着满足所有需求,有时反直觉的互动(如他的狗)反而能形成强烈的羁绊。产品经理必须懂用户,但产品不一定要完全「舔狗式」地满足所有需求,而是要提供一个能够引发用户情感连接的体验。
关于 AI 的边界感与自主性问题,嘉宾们认为这无法单一界定,而是千人千面、浮动变化的。
李巍佳认为短期内 AI 应该多提问题、多了解用户,但真正的边界感在于 AI 是否「懂事」——理解上下文和环境,知道何时该插嘴、何时不该插嘴。他透露,数伴为解决隐私担忧,采取了极端措施:图片直接处理成文字,视频丢弃,只保留头部坐标位置,并提供物理滑盖让用户主动控制摄像头。
鲁雅琦以儿童产品为例,因不合时宜的打断会造成巨大的负向伤害,他们宁愿采用保守的按键触发。她认为社会共识和制度监管(如巨额罚款、强制亮灯提示)是解决隐私担忧的关键。
真地强调边界感是个性化的,应通过软硬件结合提供空间,允许用户通过选择不同的 IP 和交互方式来定义自己的边界。
赵维奇认为最终的边界感落在了「懂你、懂场景、懂用户」上,新增的智能功能绝不能打断核心价值的输出。
AI 硬件如何通过对物理世界的音视频理解来重塑场景?
李巍佳首先从其二次元桌面硬件的角度出发,将产品定位为「给元宇宙开扇窗」,它不仅支持手势和触屏交互,更重要的是通过摄像头实现对家庭空间的识别。他强调了识别人和物的重要性:设备能够识别不同的朋友和家人,并根据关系和环境给予不同的 AI 反馈。此外,通过识别物体(如空咖啡罐),AI 能主动判断用户的需求,并做出基于环境和关系决策的行动(如主动叫咖啡),从而将智能带入日常空间。
鲁雅琦则将焦点放在儿童市场,认为「摄像头 + AI + 便携硬件」 的组合是杀手级产品。她指出,孩子真正的学习发生在与环境的交互中,而非传统的课桌前或书本上。由于儿童天然缺乏手机,随身携带且具备第一视角的助手级设备,结合 AI 知识库和视觉能力,能够完美适配孩子在与环境交互时所需的引导和支持。这种方案有效辅助了父母,并能更好地发掘孩子的天赋,其价值对家长来说是「王炸级别」的。
真地的观点则侧重于视觉能力的工程挑战。他指出,在前两年实现了「能听能说」之后,「能看」是接下来的主要任务,但信息的实时处理面临着硬件性能和能耗的严格限制。他以 2023 年尝试的毛绒玩具对话为例,指出对话延迟已可压缩至 1 秒,但视觉上的实时反馈仍需突破。真地强调,未来端侧设备必须解决传输延迟,实现实时反应,这是具身智能和更小巧硬件必须克服的核心问题。
赵维奇认为对于 Rokid 的 AR 眼镜这类轻便设备而言,硬件挑战极高。有了摄像头后,AI 不仅能做拍照录像等常规功能,更重要的是解决垂直领域的刚需,例如在没有网络或手机没电的情况下,端侧小模型能迅速实现实时翻译,帮助用户在复杂的跨语言场景中解决「缺水、缺电」等紧急需求。
无论是二次元伴侣还是学习助手,AI 目前的核心身份是「伴侣」,其核心价值在于「懂你」并帮助你解决问题,这需要摄像头对空间的理解达到更高水平。
针对未来两到三年最具突破性的端侧智能场景,三位嘉宾给出了各自的预测。
李巍佳认为最核心的突破是AI 主动交互的实现。他强调,如果 AI 能够通过智能硬件真正做到主动交互,这将是跨时代的进步,因为此前所有的东西都是被动的。
鲁雅琦则聚焦于儿童领域,预测未来的突破将是「把整个世界变成孩子的全科型书伴」。她期待 AI 能够突破学习在屏幕和课本上的限制,通过更懂孩子的能力,将孩子所看到的整个世界变成一个可以自由探索、学习和成长的课堂。
真地的预测则集中于底层技术,他认为到 2026 年,最核心的突破将是通信的稳定和「看见」能力的持续优化。通信方面,要解决联网和传输的痛点;视觉方面,需要长期投入去优化图像的稳定和实时反应。
赵维奇分享了其对视觉核心的判断,即 Visual Latency(视觉延迟) 必须越来越低,带宽占用越来越小,精度越来越高,才能真正支撑可穿戴设备。他指出,视觉领域与语音不同,仍有巨大的优化空间。
无论突破点是主动交互、全场景学习,还是底层通信和视觉能力的提升,所有硬件和端侧 AI 的发展最终都依赖于整个生态的共同努力和大规模投入,只有当大家都成为用户、开发者和合作伙伴,行业才能被推动向前。

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么