Typeless 们的爆火只是开始:为什么 Voice Agent 需要专属的 Skill 与 Harness?丨社区来稿
有时候,明明想说件事,但就是不知道怎么打出来。
不是不会打字,是你发现,要把一个模糊的想法变成一段清晰的文字,你得先在脑子里想清楚,再组织语言,再检查一遍,最后才敢按回车。
面对输入框发呆的那几秒钟,你做的不是提问,而是编辑和预演。
这种费劲的感觉,不是你的问题,是交互方式的问题。
人本来不是这么沟通的
回想一下,你和朋友聊一件复杂的事情,是怎么聊的?
你不会先在脑子里把所有信息组织好,一口气说完。你会先含糊地说一句"就是那个……怎么说呢",朋友追问一句"你是说上次那个?",你说"对对对,就是那个,但是有个地方不太一样",然后你们一来一回,慢慢就聊清楚了。
这个过程信息密度很低。每句话可能就几个字,含糊、跳跃、不完整。但奇怪的是,最后你们对齐得非常准确——因为每一步都有纠错的机会。
人类天然的沟通方式,就是渐进式的、一点一点聊清楚的。
文本输入框改变了这个模式。它要求你一次性把事情说清楚、说完整、说准确。对某些场景来说这很高效——你很清楚自己要什么,只是需要AI帮你执行:帮我写一段Python爬虫、把这份表格按日期排序。目标明确,指令清晰,文本是最好的介质。
但还有一大类情况,你的需求本身就是模糊的。你想了解一个复杂的概念但不知道从哪问起;你要做一个决策但还没理清思路;你想学一样东西但不知道自己缺什么。
总说不会提问,而这有时恰好是个悖论。
"
你需要先想清楚才能问
但就是没想清楚,你才需要问
语音正在成为新的交互方式
语音交互的真正价值不在于说比打更快,而在于——它允许你不想清楚就开口。
这件事正在发生,而且比大多数人意识到的要快。
Typeless 短短几个月就积累了大量用户,被主流科技媒体评为2026年最值得关注的生产力工具之一。这一代语音输入已经不是简单的语音识别了——它接了大模型,能在识别之后自动帮你整理措辞和逻辑。你对着电脑随便说,出来的就是一段条理清晰的文字。
在 Vibe Coding 领域,开发者已经开始直接用语音描述需求让AI写代码。有用户说,用了语音输入之后,跟 ChatGPT 的交互效率直接翻了倍——因为瓶颈从来不在AI的回答速度,而在你打字的速度。
语音正在从对着手机说句话变成一种全新的人机交互层。从必须先想清楚才能打字到开口就能聊,交互方式向人类的自然沟通迈出了关键一步。
但这还不是终点。
为什么语音 AI 还不是贾维斯
你可能已经很熟悉跟豆包聊天了。说实话,体验已经不错——反应快、理解准、有时候甚至能聊出挺深的内容。
但总觉得,和电影里的贾维斯比,还是差了点什么。
差的不单是智能。现在的大模型已经足够聪明了。
差的是两样东西。
第一,它不了解你。你跟它聊的时候,它对你一无所知——不知道你在做什么项目、不知道你的邮箱里有什么、不知道你上周跟客户谈了什么。尽管它也有所谓的记忆,但只有你告诉它了,它才知道,你没说但默认存在的常识,它无法获得。
第二,它没法给你看东西。你和它的沟通只有声音这一个通道。但人和人面对面聊事情的时候,从来不是只靠嘴和耳朵——你还会画给对方看、指给对方看、把材料摊在桌上一起看。
想想你打电话的经历就知道了。简单的事情,电话能搞定。但复杂的事呢?你打电话跟律师聊一个复杂的案子,聊到最后多半会说"要不还是见面聊吧,我把材料给你看看"。你打电话跟设计师讨论方案,说了半天这里往左一点、那里颜色深一点,最后还是得说"我发你个参考图吧"。
复杂的事情光靠说就是说不清楚。人类之所以发明了图表、板书、演示文稿,不是因为好看,而是因为有些信息必须被看到才能被真正理解。
所以现在的语音AI缺的不是智能,缺的是通道——了解你的信息的通道,和把东西展示给你看的通道。
通道从哪里来
今年最火的AI项目,大概就是小龙虾——OpenClaw了。
这个开源项目在2026年初横扫 GitHub,60天拿下超过25万颗星,从技术圈一路火到了普通人的朋友圈。它火的原因不在于换了一个更强的模型,而在于一个简单但深刻的设计:让AI可以安装和调用各种 Skill。
什么是 Skill?就是别人封装好的能力模块。装上一个 Gmail Skill,AI 就能读你的邮件;装上一个日历 Skill,AI 就能知道你的日程;装上一个浏览器 Skill,AI 就能帮你上网搜索和操作网页。而且 OpenClaw 的核心设计是本地部署——用户把权限直接交给它,它就能访问你电脑上的一切。
Skill 生态增长得非常快——从5000多个飙升到超过11000个,百度、腾讯、字节全部接入。更关键的是,OpenClaw 通过接入飞书、微信、Telegram 这些日常聊天平台,让普通用户在自己每天都在用的软件里就能直接操作AI——不用学新工具、不用切换界面,聊天框本身就是入口。这才是它真正破圈的原因。
OpenClaw 证明了一件事:模型的智能当然重要,但光有智能是不够的——AI 真正能做多少事,取决于它能连接多少信息、调用多少工具。
回到语音AI的问题。我们刚才说,语音AI缺的是通道——了解你的通道,和展示给你看的通道。而 Skill 恰好就是打开这些通道的方式。
一个没有 Skill 的语音AI,就像一个聪明的陌生人在电话那头跟你聊天——能聊,但不了解你,也没法给你看任何东西。
一个有了 Skill 的语音AI——它能读你的邮件、知道你的项目进展、调用各种工具,还能在你面前展示地图、图表、画布——那就不是打电话了,那是面对面坐在你对面的顾问。
而且不只是普通的面对面。它了解你所有的信息,能实时调用任何工具,能边说边给你展示。
这就是贾维斯。
不过这里有一个值得想清楚的区分。
这和当下火热的任务型 Agent 追求的东西其实很不一样。任务型 Agent 的价值在于高效交付结果——过程越快越好,人的介入越少越好,这个方向已经产生了巨大的价值,OpenClaw 的火爆就是最好的证明。
但如果语音AI加上 Skill 之后要做的事不是帮你完成一个任务,而是边说边做、帮你把一件事聊清楚呢?那价值就不在最终的结果上,而在沟通过程本身。
"
任务型 Agent 把事情做完
沟通型 Agent 把事情聊清楚
两者不是替代关系,而是互补——很多时候,用户需要先聊清楚,才能更好地做完。
贾维斯到底长什么样
Tony Stark 和贾维斯对话的时候,贾维斯不只是在回答问题。Tony 说了一句,贾维斯一边接话一边在全息投影上调出数据分析;Tony 皱了一下眉,贾维斯就把那组数据放大、换了一个角度展示;Tony 打断说"等等,那个异常值是怎么回事",贾维斯立刻暂停当前的分析,聚焦到那个点上。
对话在往前走,画面也在跟着走。两者是一体的。
这不是科幻。这种沟通方式在我们的生活里无处不在,只不过以前只有人能做,机器做不了。
教学一个老师在给学生讲勾股定理。他不会打开一个文档把证明过程写好说"你看吧"。他会边说边画——"这里有一个直角三角形,对吧?",边说边把三角形画出来;"这条边是a,这条是b,这条是c",边说边标上字母。学生随时可以说"等一下,那个正方形是怎么回事",老师就停下来解释。
板书不是讲完之后给学生的参考资料——板书是教学本身的一部分。
销售一个销售在给客户做方案沟通。如果AI能在对话过程中实时调出对应的产品页面、案例数据、报价对比——不是事先做好一套固定的演示,而是根据对话走向动态组织——客户看到的每一页都恰好回应了他上一句话里的关切。这种沟通效率和一套提前做好的PPT完全不是一回事。
教学、咨询、商业、销售等等——场景不同,但逻辑相同:AI不是在对话结束后才给你一个东西,而是在对话的每一步都在帮你看见。
为什么这件事比想象中难得多
前面这些场景,听起来自然到近乎理所当然。
但如果你真正尝试去实现它们,你会撞上一个根本性的难题:我们在潜意识里,是把AI当人来看待的。
这不是一句空话。当你和一个语音AI对话的时候,你的大脑就是在按照和人说话的方式运转——你期待它听懂你的言外之意,你期待它在合适的时机做出反应,你期待它的表达方式让你感到舒服。如果任何一个环节不对,你不会觉得这个技术有bug,你会觉得这个AI不懂我。
而懂你这件事,涉及的远不只是语言理解。
你回忆一下自己日常聊天就知道了——有时候你还没说完,对方就已经在点头嗯嗯了;有时候你停顿了两秒,对方自然地接上了你的话;有时候你话说到一半改了主意,对方毫不费力地跟上了你的新方向。这些微妙的互动模式丰富得惊人,每一种背后都有不同的意图和心理预期。
但现在绝大多数语音AI,处理对话的方式只有一问一答,你说完了,AI再说。跟真人对话的丰富程度比,差了一个量级。
更深层的问题是:沟通技巧这件事本身,就极其复杂,而且没有标准答案。
同样一件事,不同的人通过沟通来解决,结果可能天差地别。一个好的老师和一个差的老师讲同样的知识点,学生的理解程度可能完全不同——差别不在知识点本身,而在于怎么讲、什么时候停顿、什么时候追问、什么时候换一个角度重新解释。一个好的销售和一个差的销售面对同一个客户,成交率可能差几倍——差别不在产品本身,而在沟通的节奏和分寸。
这些东西涉及语言学、语用学、心理学等等,没有固定的公式,但在实践中又无比重要。对企业来说,最好的沟通实践往往会被沉淀成 SOP——最有经验的销售怎么开场、最好的咨询师怎么引导来访者打开心扉、最受欢迎的老师怎么控制课堂节奏。
"
沟通技巧和最佳实践
能不能被系统性沉淀到 AI 里?
用前面心理咨询的场景来感受一下这件事到底有多复杂。
AI正在和来访者对话,一边聊,一边在屏幕上梳理出几个关键事件的关联。来访者正在看屏幕上的图谱,AI也正在用语音解释这些事件之间的联系。
"其实还有一件事我一直没说……"
这一瞬间,系统面临一连串问题,而且必须在不到一秒的时间里同时回答:
来访者是在打断吗?也许只是自言自语,也许只是嗯了一声,也许是真的要补充重要信息。系统必须快速判断——超过半秒没反应,来访者就会觉得AI没听到,或者觉得被忽视了。在心理咨询这种场景里,被忽视的感受会直接伤害信任。
AI该怎么接?一个好的咨询师在这个时刻不会直接说"请讲"——他会用一种微妙的方式表示我在听,同时让来访者感到安全。是停顿一下、等来访者说完?还是用一个简短的嗯、你说来鼓励他继续?这个决策背后是对当前情绪状态的判断,是沟通技巧,不是语言理解。
来访者之前实际听到了多少、看到了多少?AI可能已经说了三件事之间的关联,但语音在第二件事的解释中间就被打断了——来访者实际只听到了一件半。如果AI接下来说"就像我刚才分析的那三件事",来访者会一头雾水——你什么时候说过三件事?
接下来该怎么推进?来访者说"其实还有一件事"——AI需要决定:是先接住这个新信息,是回顾刚才没讲完的部分,还是把新信息融入已有的图谱重新组织?一个有经验的咨询师几乎是凭直觉就能选出最合适的路径。但这种直觉背后,是多年沉淀下来的沟通经验。
如果任何一个环节处理得不对,来访者的感受就是——这个AI不懂我。
人和人对话的时候,这些全是无意识完成的。但对一个技术系统来说,这里面每一项都需要被显式地设计出来。
那这些问题,靠一个更聪明的模型能解决吗?
Voice Agent 也需要 Harness
恐怕不行。
这里面的问题分布在两个层面,没有一个是模型更聪明就能解决的。
一类是感知层面的。比如来访者实际听到了多少——模型再聪明,它也不知道语音播到了哪一个字,因为那是音频播放器的状态,不在模型的感知范围内。再比如来访者刚才的声音是咳嗽还是打断——模型在生成回复的同时,根本没办法同时做这个判断,这需要若干个独立运行的检测模块。
另一类是策略层面的。什么时候该倾听、什么时候该主动接话、什么样的节奏能让用户最舒服——这些沟通策略不是模型从训练数据里自动学得到的,因为它们高度依赖于具体场景、用户群体、甚至企业自身的最佳实践。它们需要被显式地设计、配置、调优。
这些是系统层面的问题,不是智能层面的问题。
最近AI圈有一个说法越来越流行:模型只是引擎,但引擎不是一辆车。你还需要方向盘来控制方向、需要刹车来保证安全、需要仪表盘来感知状态、需要导航系统来规划路线。这些围绕引擎构建的所有东西,行业里叫做Harness。
这个概念在文本 Agent 领域已经是共识了。OpenClaw 就是一个活生生的例子——它当然依赖强大的底层模型,但真正让它从一个聊天机器人变成能帮你干活的助手的,是围绕模型构建的那一整套系统:Skill 安装机制、心跳调度、记忆管理、本地文件访问。模型提供了智能,Harness 把智能变成了可靠的行动力。两者缺一不可。
但在语音沟通场景下,Harness 几乎还是空白。
不是没人注意到,而是语音场景对 Harness 的要求和文本场景有本质的不同。
文本 Agent 的 Harness 管理的是离散的、可暂停的流程。用户发一条消息,Agent 思考、调用工具、返回结果。每一步之间有清晰的边界,Agent 可以花几秒甚至几十秒去处理,用户等得起。出了错可以回溯、可以重来。整个过程像下棋——你一步我一步,想清楚了再落子。
语音沟通场景面对的是完全不同的东西:连续的、不可暂停的多通道实时流。
在一个边说边做的语音沟通中,至少有三条通道在同时运行:AI在说什么(语音输出流)、用户在说什么(语音输入流)、屏幕上在展示什么(视觉内容流)。这三条流不是各自独立的——它们之间有强耦合关系,任何一条流上发生的事件,都可能立即影响其他两条。
一次打断就能说明这种耦合有多复杂。用户开口了——语音输入流检测到了声音活动。这个事件立刻影响语音输出流:AI要不要停下来?停在哪个字?同时影响视觉内容流:正在构建的图谱要不要定格?而且还反过来影响语音输入流本身:如果判定这不是打断(只是一个嗯),那所有状态都要回滚到打断前的样子——但音频已经播出了一部分,你回滚不了用户的耳朵。
这在文本 Agent 里几乎不是问题——文本不会播到一半,你发出去的消息用户要么看了要么没看。但语音和画面是有时间维度的——系统必须时刻知道用户实际接收到了多少信息,而不只是已经发出了多少信息。
"
已发送和已接收之间的差值
是语音独有的复杂性来源
而且语音场景还有一个特殊的约束:延迟。文本 Agent 思考三秒钟,用户看到"正在输入...",可以接受。但语音 Agent 沉默三秒钟?用户会觉得AI死机了,或者没听到,或者被忽视了。三秒钟的沉默就足以摧毁整段对话的信任。这意味着很多决策必须是预判性的——在用户开口之前,系统就需要预备好多种可能的应对路径。
这些还只是对话本身的复杂性。一旦加上 Skill,还要再叠加一层——Skill 的调度节奏得和对话节奏同步。AI讲到某个朝代的疆域变迁,地图 Skill 就应该在那一刻展示那个时期的地图——不是提前两秒,不是滞后三秒,而是恰好在那个语义点上。这种时序精度,模型自身根本管不了。
Voice Agent Harness 的核心任务,就是在实时对话中编排多个通道——同时把沟通技巧沉淀为可复用的系统能力。
回想一下 OpenClaw 给人的感觉:你和它相处得越久,它就越遵循你的习惯、越理解你的偏好。这种越用越懂你的能力,不是模型天生就有的,而是 Harness 的记忆和学习机制在起作用。
同样的逻辑在语音沟通场景下更加重要。一个优秀老师的授课节奏、一个顶级咨询师的引导方式、一个金牌销售的沟通分寸——这些东西过去只存在于个人的经验里,没法被复制。但如果 Voice Agent Harness 能够把这些沟通模式结构化地沉淀下来,它就不只是一个让AI能说话的技术系统,而是一个让最好的沟通实践可以被规模化复用的基础设施。
Skill 生态:通道越多,场景越大
Voice Agent Harness 还需要解决一个关键的生态问题:怎么让各种 Skill 能够轻松接入语音沟通场景?
OpenClaw 让普通用户不用写代码就能给AI安装新能力。同样的逻辑,一个好的 Voice Agent Harness 应该让 Skill 的开发者不需要理解语音交互和多通道编排的复杂性——他们只需要封装好自己的能力,Harness 负责在对话中编排合适的节奏来使用它们。
当这套 Harness 足够成熟的时候,一个教育公司可以把自己的课程内容封装成一个教学 Skill,接入进来就自动获得了边说边教的能力;一个 CRM 厂商可以把客户管理系统封装成一个销售沟通 Skill,销售用语音跟客户聊的过程中就能实时调取客户信息和报价方案;一个心理健康平台可以把测评工具封装成一个咨询辅助 Skill,AI 咨询师在对话中就能实时引用评估结果。
它们都不需要各自去解决多通道编排的复杂问题——Harness 已经解决了。
每一个接入的 Skill,就是一个新的沟通场景。每一个新的沟通场景,就是一门新的生意。
OpenClaw 的 Skill 生态已经证明了这个飞轮在任务型 Agent 上能转起来。当 Voice Agent Harness 成熟之后,同样的飞轮也会在沟通型场景里转动。因为几乎所有需要人对人解释、说服、引导、教学的场景,都可以被这种边说边做的 AI 所增强。
下次你再对着输入框发呆的时候,也许可以想一想:如果你不用打字,只需要开口说,而且AI还能边听你说、边给你看——那会是什么感觉?
"
让 AI 适应人类的沟通方式
而不是反过来


阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
