在RTE2025大会，我看到了AI语音如何让机器学会“与人相处”

10 月 31 日，我们受 RTE 开发者社区邀请参加了 RTE2025 大会。

这不是寻常的科技展会，没有冰冷的技术参数展示，取而代之的是AI与人类自然交流的场景。

今年大会以「AI 有声」为主题，这巧妙地道出了行业的变化——AI正在从无声的工具变为有声的伙伴。从能贴心对话的毛绒玩具，到随时陪伴的AI语伴，从智能调研助手到趣味互动桌游，对话式AI已不再是科幻构想，而是触手可及、富有情感的日常存在。

这股“AI有声”的浪潮背后，是怎样的技术基石在支撑？一个优秀的语音智能体，从灵光一现的Demo到稳定可靠的产品，需要跨越哪些鸿沟？

为了探寻这些答案，我们不仅深入了专为语音智能体开发者打造的 “RTE101技术专场” ，系统梳理从语音前端处理到交互逻辑的核心技术栈；也穿梭于各大展台，亲身体验了如 Chikka.ai 这样的智能调研工具、ValidFlow.AI 的用户洞察平台以及 LookeeAI 教育硬件等前沿应用。

今天，我们来分享一下我们的所见所得、所思所想。

101技术专场：语音智能体开发者的第一课

这场为语音智能体开发者设计的“第一课”从最底层的信号处理一直讲到上层的应用实践，系统性地剖析了一个语音智能体从Demo到产品化需要跨越的鸿沟。

音频3A处理（AEC、ANS、AGC）是对话式AI的基石。声网音频算法工程师林子毅现场演示了回声消除的重要性：当关闭AEC功能时，AI设备会陷入“自问自答”的循环——说出回答后又被自己的声音触发，不断重复响应，根本无法正常交流。而降噪技术则让AI在嘈杂的机场环境中也能准确识别主要说话人的指令。

语音活动检测（VAD）决定交互体验。传统的VAD基于声带振动检测，但对于发轻音或辅音时无效。声网开源的TEN VAD基于深度学习，能更准确地检测语音起止点，将端到端响应延迟控制在毫秒级，避免了“说话被打断”或“说完等几秒没反应”的糟糕体验。

让我印象比较深刻的是关于对话式AI架构的讨论。目前主流的三段式架构将ASR、大语言模型、TTS串联，优点是各模块可独立优化，技术成熟度高。但端到端语音大模型直接将语音输入映射为语音输出，减少了信息损失，理论上更接近人类对话方式。

三段式架构灵活可控，但累积延迟较高；端到端模型响应更快，但训练数据和成本要求极高，且可控性较差。

在探讨对话式AI中传输音视频和数据的最佳协议选择时，声网生成式AI产品负责人毛玉杰从产品角度指出，技术决策的出发点应该是用户体验而非技术本身。“我们总是在讨论协议的好坏，但核心是这个协议能给用户带来什么体验”。他建议开发者采用混合架构：WebSocket用于信令控制，WebRTC用于媒体传输，各取所长。

此外，还分享了工具调用与MCP实践、对话式AI体验评估等内容。如果大家感兴趣的话，我们可以单独出一期“101技术专场”的内容完整回顾，欢迎在评论区留言

展会亮点：三款产品背后的AI语音革新

（1）Chikka.ai：让用户调研会“说话”

在活动现场展台，我们遇到了这款专注于客户访谈的AI平台。Chikka.ai基于AI语音代理Ava，能与受访者进行自然对话，快速收集分析语音反馈。

最吸引我的功能是它支持多语言访谈，能同时进行数百次对话。想象一下，企业可以在短时间内完成大规模的用户调研，而且不是通过冰冷的问卷，而是模拟专业访谈者的对话交流。平台还提供个性化访谈计划、自动转录与见解提取，大大缩短了从收集到洞察的周期。

（2）ValidFlow.AI：从数据到洞察的智能升级

相类似的，AI用户洞察应用ValidFlow.AI的展台吸引了不同的人群。

与Chikka.ai侧重于对话式数据收集不同，ValidFlow.AI更像是一个完整的用户洞察平台，它通过AI研究员和全球用户池的组合，全面高效地完成用户洞察的全流程。

两者的区别在于：Chikka.ai像是擅长对话的采访者，而ValidFlow.AI则更像是整个研究团队——从设计调研到回收分析，提供更全面的解决方案。现场工作人员表示，他们的目标是让用户洞察不再是大公司的专利，让初创企业也能轻松获得高质量的市场洞察。

进一步阅读：RTE现场看到的超绝AI调研产品，调研人福音！

（3）Lookee：会互动的英语学习伙伴

教育硬件展区总是人山人海，盒智科技推出的LOOKEE口语侠尤其受欢迎。这款被称为“全球最小AI英语学习语伴”的产品，大小不过一个耳机盒，重量不到50克，专为5-12岁儿童设计。

他们自研的AURA系统能实时分析孩子的情感状态、内容理解度和对话积极性，并动态调整对话策略。通过情感化交互设计，为孩子打造零压力的专属口语环境，解决孩子们“没处说、不敢说”的痛点。

起初我觉得这类 AI 教育硬件应该是产品同质化的重灾区，但在现场我发现，一个孩子在与LOOKEE进行英语对话时，摇一摇LOOKEE，LOOKEE不仅会换一个口语话题，甚至还会换一个非常有动感的表情，非常可爱。

后面LOOKEE团队告诉我，他们做了大量用户调研，挖掘孩子们真正痛点和兴趣点。我觉得这种用心在初创团队上是十分难得的，也是真正打动我的。

AI桌游《Talk With》：聊天能解决的事儿

大会的互动环节中，最让我惊喜的是全球首款AI主题语言类桌游《Talk With》（中文名：聊天能解决的事儿）试玩会。

游戏规则颇具创意：3-5名玩家抽取随机场景卡，每个场景都潜含着困难和危机。玩家需要竞拍合适的对话式AI和语音技术，构建自己的技术壁垒，最终通过路演展示产品愿景。

我参与的一局游戏中，抽到的场景是“解决开车犯困问题”。我们小组竞拍到了情感语音合成技术，设计了一款能通过聊天保持驾驶员清醒的AI助手。游戏中的“市场行情卡”带来了意想不到的转折——突然的“技术突破”让我们的方案更具竞争力。

这款桌游巧妙地将AI语音技术融入轻松愉快的游戏中，让参与者在40分钟的游玩中理解了不同语音技术的应用场景和组合价值。正如游戏名称所暗示的，有时候聊天真的能解决很多问题。

总结：AI语音的未来是更自然的“相处”

回顾一天的逛展体验和技术专场的深度学习，我最大的感受是：AI语音技术正从“工具性”走向“关系性”。

从会陪伴的芙崽Fuzozo，到能教学的LOOKEE，再到帮助企业洞察用户的ValidFlow.AI，这些产品不再强调技术的强大，而是聚焦于如何让AI更懂人心。101技术专场中各位讲师反复强调的一个观点让我深有共鸣：技术最终要为体验服务。

当AI学会了倾听与对话，它不再只是执行命令的工具，而成为我们生活中有温度的伙伴。这或许就是对话式AI最美好的前景——不是取代人类，而是以更自然的方式与人“相处”，让技术真正服务于人的情感需求。

我相信，我们迎来的将是一个更有温度的数字未来。

最后，再次感谢 RTE 开发者社区邀请我们来参加这次活动，真的非常用心，dev party也让我们交到了不少有意思的新朋友。