在RTE2025大会,我看到了AI语音如何让机器学会“与人相处”
10 月 31 日,我们受 RTE 开发者社区邀请参加了 RTE2025 大会。
这不是寻常的科技展会,没有冰冷的技术参数展示,取而代之的是AI与人类自然交流的场景。
今年大会以「AI 有声」为主题,这巧妙地道出了行业的变化——AI正在从无声的工具变为有声的伙伴。从能贴心对话的毛绒玩具,到随时陪伴的AI语伴,从智能调研助手到趣味互动桌游,对话式AI已不再是科幻构想,而是触手可及、富有情感的日常存在。
这股“AI有声”的浪潮背后,是怎样的技术基石在支撑?一个优秀的语音智能体,从灵光一现的Demo到稳定可靠的产品,需要跨越哪些鸿沟?
为了探寻这些答案,我们不仅深入了专为语音智能体开发者打造的 “RTE101技术专场” ,系统梳理从语音前端处理到交互逻辑的核心技术栈;也穿梭于各大展台,亲身体验了如 Chikka.ai 这样的智能调研工具、ValidFlow.AI 的用户洞察平台以及 LookeeAI 教育硬件等前沿应用。
今天,我们来分享一下我们的所见所得、所思所想。
101技术专场:语音智能体开发者的第一课
这场为语音智能体开发者设计的“第一课”从最底层的信号处理一直讲到上层的应用实践,系统性地剖析了一个语音智能体从Demo到产品化需要跨越的鸿沟。
音频3A处理(AEC、ANS、AGC)是对话式AI的基石。声网音频算法工程师林子毅现场演示了回声消除的重要性:当关闭AEC功能时,AI设备会陷入“自问自答”的循环——说出回答后又被自己的声音触发,不断重复响应,根本无法正常交流。而降噪技术则让AI在嘈杂的机场环境中也能准确识别主要说话人的指令。
语音活动检测(VAD)决定交互体验。传统的VAD基于声带振动检测,但对于发轻音或辅音时无效。声网开源的TEN VAD基于深度学习,能更准确地检测语音起止点,将端到端响应延迟控制在毫秒级,避免了“说话被打断”或“说完等几秒没反应”的糟糕体验。
让我印象比较深刻的是关于对话式AI架构的讨论。目前主流的三段式架构将ASR、大语言模型、TTS串联,优点是各模块可独立优化,技术成熟度高。但端到端语音大模型直接将语音输入映射为语音输出,减少了信息损失,理论上更接近人类对话方式。
三段式架构灵活可控,但累积延迟较高;端到端模型响应更快,但训练数据和成本要求极高,且可控性较差。
在探讨对话式AI中传输音视频和数据的最佳协议选择时,声网生成式AI产品负责人毛玉杰从产品角度指出,技术决策的出发点应该是用户体验而非技术本身。“我们总是在讨论协议的好坏,但核心是这个协议能给用户带来什么体验”。他建议开发者采用混合架构:WebSocket用于信令控制,WebRTC用于媒体传输,各取所长。
此外,还分享了工具调用与MCP实践、对话式AI体验评估等内容。如果大家感兴趣的话,我们可以单独出一期“101技术专场”的内容完整回顾,欢迎在评论区留言
展会亮点:三款产品背后的AI语音革新
(1)Chikka.ai:让用户调研会“说话”
在活动现场展台,我们遇到了这款专注于客户访谈的AI平台。Chikka.ai基于AI语音代理Ava,能与受访者进行自然对话,快速收集分析语音反馈。
最吸引我的功能是它支持多语言访谈,能同时进行数百次对话。想象一下,企业可以在短时间内完成大规模的用户调研,而且不是通过冰冷的问卷,而是模拟专业访谈者的对话交流。平台还提供个性化访谈计划、自动转录与见解提取,大大缩短了从收集到洞察的周期。
(2)ValidFlow.AI:从数据到洞察的智能升级
相类似的,AI用户洞察应用ValidFlow.AI的展台吸引了不同的人群。
与Chikka.ai侧重于对话式数据收集不同,ValidFlow.AI更像是一个完整的用户洞察平台,它通过AI研究员和全球用户池的组合,全面高效地完成用户洞察的全流程。
两者的区别在于:Chikka.ai像是擅长对话的采访者,而ValidFlow.AI则更像是整个研究团队——从设计调研到回收分析,提供更全面的解决方案。现场工作人员表示,他们的目标是让用户洞察不再是大公司的专利,让初创企业也能轻松获得高质量的市场洞察。
进一步阅读:RTE现场看到的超绝AI调研产品,调研人福音!
(3)Lookee:会互动的英语学习伙伴
教育硬件展区总是人山人海,盒智科技推出的LOOKEE口语侠尤其受欢迎。这款被称为“全球最小AI英语学习语伴”的产品,大小不过一个耳机盒,重量不到50克,专为5-12岁儿童设计。
他们自研的AURA系统能实时分析孩子的情感状态、内容理解度和对话积极性,并动态调整对话策略。通过情感化交互设计,为孩子打造零压力的专属口语环境,解决孩子们“没处说、不敢说”的痛点。
起初我觉得这类 AI 教育硬件应该是产品同质化的重灾区,但在现场我发现,一个孩子在与LOOKEE进行英语对话时,摇一摇LOOKEE,LOOKEE不仅会换一个口语话题,甚至还会换一个非常有动感的表情,非常可爱。
后面LOOKEE团队告诉我,他们做了大量用户调研,挖掘孩子们真正痛点和兴趣点。我觉得这种用心在初创团队上是十分难得的,也是真正打动我的。
AI桌游《Talk With》:聊天能解决的事儿
大会的互动环节中,最让我惊喜的是全球首款AI主题语言类桌游《Talk With》(中文名:聊天能解决的事儿)试玩会。
游戏规则颇具创意:3-5名玩家抽取随机场景卡,每个场景都潜含着困难和危机。玩家需要竞拍合适的对话式AI和语音技术,构建自己的技术壁垒,最终通过路演展示产品愿景。
我参与的一局游戏中,抽到的场景是“解决开车犯困问题”。我们小组竞拍到了情感语音合成技术,设计了一款能通过聊天保持驾驶员清醒的AI助手。游戏中的“市场行情卡”带来了意想不到的转折——突然的“技术突破”让我们的方案更具竞争力。
这款桌游巧妙地将AI语音技术融入轻松愉快的游戏中,让参与者在40分钟的游玩中理解了不同语音技术的应用场景和组合价值。正如游戏名称所暗示的,有时候聊天真的能解决很多问题。
总结:AI语音的未来是更自然的“相处”
回顾一天的逛展体验和技术专场的深度学习,我最大的感受是:AI语音技术正从“工具性”走向“关系性”。
从会陪伴的芙崽Fuzozo,到能教学的LOOKEE,再到帮助企业洞察用户的ValidFlow.AI,这些产品不再强调技术的强大,而是聚焦于如何让AI更懂人心。101技术专场中各位讲师反复强调的一个观点让我深有共鸣:技术最终要为体验服务。
当AI学会了倾听与对话,它不再只是执行命令的工具,而成为我们生活中有温度的伙伴。这或许就是对话式AI最美好的前景——不是取代人类,而是以更自然的方式与人“相处”,让技术真正服务于人的情感需求。
我相信,我们迎来的将是一个更有温度的数字未来。
最后,再次感谢 RTE 开发者社区邀请我们来参加这次活动,真的非常用心,dev party也让我们交到了不少有意思的新朋友。

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么