自 4O 之后,Voice 从 Assistant 到 Agent,新机会都藏在哪些场景里?|Voice Agent 学习笔记

今天的 AI 观察来自社区新朋友 Ada 的专栏「语音智能 | Voice, Evolved」。

「从命令式助手变为对话型伙伴」,Ada 从技术和场景生态,关系和能力等多方面分析了为什么语音 AI Agent 变得越来越重要。期待文章对你有所启发!

十年前,我们对语音的理解:听得懂你说的话,并替你执行命令。

十年后,我们也许开始期待:像一个会说话的人,听懂你、理解你、回应你,甚至陪你一会儿。

从 Voice Assistant 到 Voice Agent,语音终于从“更差的触控替代”变成了“可能有人格的存在”。不只是技术迭代,更是叙事结构的升级。

在语言诞生之前,声音就已经是沟通的媒介。语音交互之所以被视为最自然的方式,是因为它植根于人类本能,也延续了万物之间用 声音沟通信息、传递情绪、建立连接 的方式。

如果追溯 AI 的落地应用史,会发现 语音识别是最早实现商业化 的方向之一。它最早可追溯到上世纪 50 年代 Bell Labs 的 Audrey 原型,到 90 年代的 IBM ViaVoice 将语音识别首次带入商业化应用。而进入 21 世纪,从最早的 Siri 到各式各样的智能音箱,语音助手一路走红,销量和声量齐飞,一度让人产生“未来已来”的错觉。但现实往往一地鸡毛:从“唤醒 - 识别 - 执行 - 播报”每一步都可能出错 ( “唤醒困难、识别不准、理解能力薄弱、执行错误、播报机械” ),用户体验四分五裂、功能极其有限。最终,语音助手实则为灯具行业做了贡献,沦为一键智能开关灯的附属品。

直到 2024 年 4O 端到端语音 (Speech-to-Speech) 模型产品化的落地,再次打开了语音交互新体验的想象空间。 它的厉害之处在于:基于 端到端 架构,直接引入了文本和音频信息进行预训练,首次实现了语音理解和生成的一体化 。不再只是“ 听懂文字 ”,而是能“ 理解语气 ”,甚至让 AI 有了一种“带着脑子说话”的感觉。

那么,4O 已然推出了一年,我们真的走进语音交互的新阶段了吗?Voice 从 Assistant 到 Agent,又有哪些新的应用场景被解锁?

要回答这个问题,不妨先从过去一年语音模型的关键进展说起:

这代表,语音智能正在往哪走?

从这一年中语音模型的频繁迭代,Ada 观察到 4 条关键趋势:

1.语音正在成为新一代交互入口: 从 ChatGPT 到 Character AI,再到 Gemini Live,主流 AI 产品都上线了语音通话功能。 2025 年,我们看到越来越多以语音为主交互形态的 Agent 诞生,比如 ElevenLabs 的 11.ai。 语音,不再只是附加功能,而成为整个体验的起点。

2. 语音表达迈向拟人化: ElevenLabs、PlayHT、Hume 等模型厂商持续深化声音表现力:支持语气控制、情绪变化、音色拟人,语音不再只是中性播报,而是成为有“风格化、角色感”的表达方式。

3. 语音正在逼近“实时流畅”与“连续感知”: 从 4O 的低延迟语音响应,到 Kyutai、Voila 推出的全双工语音模型,语音正在突破传统“轮流发言”的对讲机式体验,朝着“边听边说、随时响应”的 always-on 状态演化。

此外,语音的“门槛”也在快速降低: GPT‑4o 的实时语音 API 单价已降至每百万 tokens 仅 40 美元 - 若未来成本再降低 10 倍、100 倍、1000 倍,语音 Agent 或许会像今天的网页和 App 一样,成为人人可用的基础设施。而结合“拟人表达、实时连续感知”的语音,正打开多模态智能体的未来入口形态:持续陪伴、主动协作,甚至具备个性表达的数字伙伴。这,也许就是语音交互下一轮爆发的临界点。

那么,新落地场景有变化吗?

我们不妨先从 GPT‑4o 最早的一批官方合作伙伴看起:Healthify (AI营养师) 、Speak(AI口语教练) 、Humane Pin / Rabbit R1 (通用语音入口的可穿戴与手持设备) 、Twilio (AI 电话外呼); 也包括 Be My Eyes(视障辅助)和部分机器人研究项目(具身智能)等。

看上去似乎还不算多,对吧?别急,如果我们将视野再放大一些,从过去一年公开披露的融资趋势来看,会发现语音技术正在悄然铺开,更清晰的生态图谱也逐渐浮现。

由此可见,从模型到底座平台再到行业产品,语音 Agent 的“全栈路径”已然显现。医疗、销售、客服、呼叫热线、招聘和教练 等高频通话和沟通行业,正在成为语音 Agent 最先落地、效果最显著的应用阵地。尤其是在医疗领域,语音产品已孕育出第一批独角兽公司。

而视野再进一步拉开,Ada 观察到新增场景的两大趋势,正在悄然打开语音交互的新空间:

1. 拟人化语音,正在释放人类的表达与陪伴需求: 过去语音 AI 更多服务于“企业场景”与“效率优化”:比如电话外呼、语音客服和自助查询。而 4O 让语音 AI 首次进入人的 表达、练习、陪伴、成长 等更多元、关系浓度更高的日常生活和工作领域。它可以是用户的 “销售教练、模拟面试官、口语老师、营养师、领导力教练、情绪陪练、虚拟恋人、甚至数字分身”…… 这些拟人型语音 Agent 不再只是解决问题,而是在互动中帮助用户持续提升自我、共建关系与信任。

2. 新一代 AI 硬件,催生“语音即入口”的刚性需求: 随新一代 AI Native 硬件的出现(如 Humane Pin、Rabbit R1、AI 眼镜、家用机器人等),语音成为最自然、最轻便的交互方式,也许也是唯一可行的入口。因为:

  • 无屏设备无法依赖点击或键盘,主要靠 “说话”

  • 用户对 “响应速度”和“流畅对话” 的期待越来越高,GPT‑4o 的端到端、多模态优势恰好匹配这类需求

  • 新场景也随之延展:AI 从过往的“播个歌/导个航”,升级变成我的 “出行导游搭子”、“生活记录搭子”、“实时翻译搭子” - 一个随时随地陪伴、记录、提醒、理解、执行的数字存在。

Voice 从 Assistant 变成 Agent,意味着什么变化?

这一年,看似语音交互没有翻天覆地的变化。但如果认真观察,会发现一个关键的范式转变已经悄然发生:Voice Assistant 正在演化为 Voice Agent 。Ada 想从四个层面,尝试解读这背后的不同:

1. 它和人的关系变了,从命令式助手变为对话型伙伴: 以前 Voice Assistant 是用户是通过唤醒词召唤它做事,AI 是被动式响应;而 Voice Agent 却是可以“陪你对话、指导你练习、在你焦虑时主动关心” 的主动型角色。比如你说 “我不想去上班”,assistant 会说“对不起,我没理解。” 而 agent 可能会说:“是最近太累了吗?还是觉得工作卡住了?”它开始回应你的状态,而不是只听懂你的话。

2. 它的能力变了,从基础指令拓展为多模态能手: 以前的 Voice Assistant 是以语音指令 + 有限的FAQ/NLU + 语音播报来组成,语义理解浅,能处理的只是 FAQ 和命令; 而 Voice Agent 是以 LLM 为核心的大脑,融合 memory + emotion + tool-use + vision 等多模态技术,具备了“看得清、听得懂、记得住、会联想、会共情、能行动” 的全栈能力,甚至强调上下文感知和主动交互、具有自主行为意图。

3. 它的角色变了,从“入口”升级为“系统本身”: 以前 Siri 是操作系统的入口,是一个“流量入口”,用户可以语音唤起应用,但应用内操作还是依赖 GUI ; 而 Voice Agent 却是语音操作系统本身,比如 OpenAI 正在构建的组合:GPT‑4o + Memory + App Store + Function Calling,用户可以用语音让 Agent 去执行应用操作。 比如和它说“我下周一要做个汇报”,它能提醒你、帮你查资料、甚至和你一起预演和协作。

最后,也是最有意思的一点 - 它,开始像个人了: Voice Assistant 是你的语音遥控器,Voice Agent 更像陪你一起工作和生活的 数字伙伴 。它不仅服务你的效率需求,也在与你共同构建某种“陪伴关系”:它能听你碎碎念,能陪你练口语,能记得你前天讲过的烦恼,偶尔还会给点鼓励。从实用价值到情绪价值,语音正在成为 AI 拟人外化的表达通道。

所以, Timing 到了吗?

以上,是 Ada 对 Voice Agent 的几点小观察和思考。如果你有和 GPT-4O 的语音模式聊过几句,可能会隐约体会到这种变化的「温度」:它不只懂语言,而是开始,懂你说这句话的语气和背后的意思;开始,记得了。

而作为参与上一代语音助手的构建者,以及这一代语音的亲历者,Ada 的感受尤其强烈:很多曾靠多个小模型 + 人工策略 + 手动 hot fix 才能实现的基础体验,如今在端到端模型的驱动下,变得自然流畅、低成本可得。用户体验从未缺席,只是现在,builder 有了更轻盈的路径,得以真正构建出像“人”一样的 Voice Agent。

接下来,Ada 也会持续推出语音系列的观察和分析:聊聊语音独角兽是怎么长出来的、看看这些新语音模型正在走向怎样的产品落地。如果你也在关注、好奇,或是已经在做这方面的尝试,欢迎关注和留言,一起来聊聊:AI 带上专业脑说话之后,人与 AI 的关系,人与世界的关系,会不会已经悄悄,变了呢?:)

更多 Voice Agent 学习笔记:

对话 Wispr Flow 创始人 Tanay:语音输入,如何创造极致的 Voice AI 产品体验

Notion 创始人 Ivan Zhao:传统软件开发是造桥,AI 开发更像酿酒,提供环境让 AI 自行发展

ElevenLabs 语音智能体提示词指南 —— 解锁 AI 语音交互的「灵魂秘籍」丨 Voice Agent 学习笔记

11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨Voice Agent 学习笔记

实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨Voice Agent 学习笔记

级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?

视频丨Google 最新 AI 眼镜原型曝光:轻量 XR+情境感知 AI 打造下一代计算平台

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场

a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    分类
    关键词
    // 相关帖子
    Coming soon...
    • 0
    自 4O 之后,Voice 从 Assistant 到 Agent,新机会都藏在哪些场景里?|Voice Agent 学习笔记RTRTE_Dev_Comm