Skip to content

1.我们为何撰写本手册

自从 ChatGPT-4o 发布以来,全球开发者第一次清晰地看见:人与 AI 的沟通,不必停留在文字框里。我们可以直接“说”给 AI 听,AI 也能“用声音”立刻回应。这标志着一个新的交互时代的到来——Voice as the Interface

在短短几个月里,围绕语音交互的产品爆发式增长:

  • 从个人助手(如 Realtime API、ChatGPT Voice、Pi);

  • 到企业客服、会议助理、智能硬件等各类对话式 AI;

  • 各大模型厂商与独立开发者社区都在快速探索语音的可能性。

然而,当开发者真正尝试搭建一个可用的 对话式 AI 时,才发现这件事远比想象复杂。 要让语音交互“像人一样自然”,需要跨越多个技术层:

  • 编排:选择三段式,还是端到端,可见的差别有多少?

  • 传输:是选好做 demo 的 WebSocket,还是难上手 WebRTC?

  • 打断:声学打断和语义打断的差别是什么呢?

  • 模型:哪些才是更适合低延迟场景的 ASR、LLM、TTS 呢?

  • 插件:Tool Call、memeory、rag,这些东西要加么,怎么加?

这正是我们编写《Conversational AI for the Curious》的初衷——给所有语音智能体开发者们,带来值得参考的第一课。

1.1 手册的目标

我们希望这本小册子能成为开发者的“施工图纸”:

  • 把“对话式 AI”的各个组成部分拆解清楚;

  • 用开发者语言描述每一层的实现思路;

  • 结合开源与商用工具,讲清楚“为什么这样选”和“如何做更好”。

我们希望这本手册不仅是入门教程,更是一份能启发思考的“实践指南”——让开发者在理解原理的同时,也能动手实现属于自己的 Voice Agent。

1.2 如何参与

本项目是一个开放的知识手册,欢迎所有开发者、研究者和语音 AI 爱好者在我们的 Github Repo 参与贡献。

  • 🛠 提交 Pull Request:修正、扩展或优化任意章节

  • 💡 提出 Issue:发起讨论或建议新的主题方向

  • 🌍 加入社区交流:共同打造最系统、最工程化的对话式 AI 开发手册

让我们携手,共同构建下一代开发者知识体系。

From developers, for developers. Together, we build the Conversational AI future.