1.我们为何撰写本手册

自从 ChatGPT-4o 发布以来，全球开发者第一次清晰地看见：人与 AI 的沟通，不必停留在文字框里。我们可以直接“说”给 AI 听，AI 也能“用声音”立刻回应。这标志着一个新的交互时代的到来——Voice as the Interface。

在短短几个月里，围绕语音交互的产品爆发式增长：

然而，当开发者真正尝试搭建一个可用的对话式 AI 时，才发现这件事远比想象复杂。 要让语音交互“像人一样自然”，需要跨越多个技术层：

这正是我们编写《Conversational AI for the Curious》的初衷——给所有语音智能体开发者们，带来值得参考的第一课。

1.1 手册的目标

我们希望这本小册子能成为开发者的“施工图纸”：

我们希望这本手册不仅是入门教程，更是一份能启发思考的“实践指南”——让开发者在理解原理的同时，也能动手实现属于自己的 Voice Agent。

本项目是一个开放的知识手册，欢迎所有开发者、研究者和语音 AI 爱好者在我们的 Github Repo 参与贡献。

让我们携手，共同构建下一代开发者知识体系。

From developers, for developers. Together, we build the Conversational AI future.