直播预告:Thinking Machines 押注的「交互模型」是什么?解读实时多模态模型的下一幕丨 RTE Dev Talk
Thinking Machines Lab 的微回合(Micro-turns)架构支持实时打断、重叠说话以及无感知的对话管理,无需独立的对话管理模块。
从 GPT-4o 到 OpenAI Realtime 2,再到 Thinking Machines 的最新的交互模型(interaction models),AI 语音交互的关注点正在发生变化——从「能不能听懂」,转向「能不能边说边做」。
第一幕解决的是对话本身,第二幕要解决的是边听、边说、边推理、边执行。一条路径从模型层出发,让端到端多模态模型自己长出执行能力;另一条从架构层出发,让多个模型协同分工。两条路都在加速,答案还没揭晓。
AI 语音交互,正在进入第二幕。
本周六晚,RTE 开发者社区邀请了多位来自大模型研发一线、AI 实时交互与基建生态的资深专家,一起开麦探讨这波技术浪潮下的新范式与真机会!
同时我们也设置了开放麦环节,留出自由发言时间,欢迎开发者上麦聊聊你的项目和想法。
聊些什么?
新一代实时交互模型的技术趋势,「沟通 + 交互」这个新范式到底意味着什么 ?
模型派 vs 架构派:两条路径如何取舍?
「边说边做」这种新形态的 AI,会先在哪些场景跑出来?
开发者可以做点什么?
嘉宾阵容:
武执政 |香港中文大学(深圳)副教授、博导,RTE 开发者社区联合主理人
刘晓岸 | CU Boulder CS PhD in Human AI interaction, ex-Google Glasses,近期开发的 VisionClaw 开源项目在 X 上获得近百万次的浏览
张乾泽 | Agora Agent Platform Lead
张昊阳 | 阶跃星辰实习生,StepAudio 2、R1、R1.1 核心贡献者,DuplexSLA 第一作者
陈鋆 | 阶跃星辰语音大模型研究员,负责全双工相关工作
主持 :
姚光华 | 声网 AI 产品线负责人
开放麦环节
直播尾声留出自由发言时间,欢迎开发者上麦聊聊正在做的项目、想验证的想法、或者想吐槽的坑。
时间 | 5 月 17 日(周日)上午 10:00–12:00(北京时间)
形式 | 线上直播
直播地点: RTE 开发者社区等多家微信视频号联合直播
参与方式: 长按扫描海报二维码,或前往【RTE开发者社区】公众号预约直播!

