1.我们为何撰写本手册
自从 ChatGPT-4o 发布以来,全球开发者第一次清晰地看见:人与 AI 的沟通,不必停留在文字框里。我们可以直接“说”给 AI 听,AI 也能“用声音”立刻回应。这标志着一个新的交互时代的到来——Voice as the Interface。
在短短几个月里,围绕语音交互的产品爆发式增长:
从个人助手(如 Realtime API、ChatGPT Voice、Pi);
到企业客服、会议助理、智能硬件等各类对话式 AI;
各大模型厂商与独立开发者社区都在快速探索语音的可能性。
然而,当开发者真正尝试搭建一个可用的 对话式 AI 时,才发现这件事远比想象复杂。 要让语音交互“像人一样自然”,需要跨越多个技术层:
编排:选择三段式,还是端到端,可见的差别有多少?
传输:是选好做 demo 的 WebSocket,还是难上手 WebRTC?
打断:声学打断和语义打断的差别是什么呢?
模型:哪些才是更适合低延迟场景的 ASR、LLM、TTS 呢?
插件:Tool Call、memeory、rag,这些东西要加么,怎么加?
这正是我们编写《Conversational AI for the Curious》的初衷——给所有语音智能体开发者们,带来值得参考的第一课。
1.1 手册的目标
我们希望这本小册子能成为开发者的“施工图纸”:
把“对话式 AI”的各个组成部分拆解清楚;
用开发者语言描述每一层的实现思路;
结合开源与商用工具,讲清楚“为什么这样选”和“如何做更好”。
我们希望这本手册不仅是入门教程,更是一份能启发思考的“实践指南”——让开发者在理解原理的同时,也能动手实现属于自己的 Voice Agent。
1.2 如何参与
本项目是一个开放的知识手册,欢迎所有开发者、研究者和语音 AI 爱好者在我们的 Github Repo 参与贡献。
🛠 提交 Pull Request:修正、扩展或优化任意章节
💡 提出 Issue:发起讨论或建议新的主题方向
🌍 加入社区交流:共同打造最系统、最工程化的对话式 AI 开发手册
让我们携手,共同构建下一代开发者知识体系。
From developers, for developers. Together, we build the Conversational AI future.