YC 项目风向标:语音 AI 正告别「秀拟人」,走向「基础设施化」丨日报

开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@koki、@鲍勃
01 有话题的技术
1、Krafton 推出 AI 品牌「Raon」,四款模型全面开源
Krafton 近日宣布推出旗下全新 AI 模型品牌「Raon」,并同步在全球最大 AI 模型平台 Hugging Face 上开源四款模型:
语音驱动大型语言模型 Raon-Speech:参数规模为 9B,支持语音转文本、文本转语音及基于语音的问答等任务。
实时双向语音对话模型 Raon-SpeechChat:采用实时双向通信技术,支持用户在对话过程中自由打断,是韩国首款发布的实时双向语音模型。
文本转语音模型 Raon-OpenTTS:仅使用公共语音数据训练,在语音自然性盲测中,其表现不亚于使用私有数据训练的 TTS 模型。
视觉编码器 Raon-VisionEncoder:可将图像转化为 AI 可理解的信息,支持与语言模型结合,并可从零开始自主训练,无需依赖预训练模型。
( @APPSO)
2、Linq 推出新 API:AI 智能体无缝接入 FaceTime 与 iMessage
Linq API 现已开启早期预览,正式宣布支持 AI 智能体接入 FaceTime 视频通话功能。
用户无需下载安装任何额外的第三方 App,即可直接在熟悉的苹果原生生态(FaceTime 和 iMessage)中与 AI 进行交互,大幅降低了使用门槛。借助该 API,开发者可以将 AI 包装成私人助理、专属健身教练或心理治疗师,通过实时视频的形式为用户提供拟真服务。
目前,该功能已获得行业内头部企业的青睐。知名 AI 视频生成初创公司 Pika Labs (@pika_labs) 作为现有客户,已经开始基于该 API 接口构建全新的产品体验。
( @elliott__potter@X)
3、北理工等发布 ATRU 框架:建立动物行为到社交机器人的 6 阶段技术转化路径
北京理工大学与上海创智学院研究团队在 CHI 2026 发表 ATRU 框架,旨在解决动物行为(Ethology)向社交机器人转化过程中的碎片化问题。该框架通过系统化流程,将动物社会互动策略转化为机器人的本体设计、行为序列及交互逻辑,为跨学科机器人研发提供可操作的技术范式
通过建立六阶段全生命周期工作流,该框架确立了从「行为识别、数据采集与表征」到「本体/行为设计、平台部署」再到「指标评估、用户实验」的标准化路径,解决了生物行为特征在工程实现中的断层问题。
将转化过程拆解为本体设计(驱动结构与感官能力复现)、行为构建(动作序列还原与功能类比)以及决策逻辑(基于刺激-响应的交互协议与状态建模)三维度迁移模型。
定义了记录(传感器客观保留)、描述(模式提取与归纳)与阐释(社会意义与任务映射)三个数据处理层次,优化了多模态动物行为数据的利用率。基于 44 个学术及商业案例(如情感表达、学习适应机制等),提炼出针对机器人日常活动与社交互动的具体实现策略。
相关研究成果已收录于 CHI 2026,论文全文待会议召开后正式释出。
( @Research AI+)
4、MiniMax 发布全模态命令行工具 MMX-CLI
昨天,MiniMax 正式发布了 MMX-CLI,一款专为 AI 智能体设计的全模态命令行工具。
其核心定位是将 MiniMax 的多模态能力以命令行形式交付给 AI 智能体,使其能够在 Claude Code、OpenClaw 等主流智能体运行环境中,直接调用图像生成、视频生成、语音合成、音乐创作等模型能力。
MiniMax 方面表示,借助 MMX-CLI,一个 AI 智能体可以独立完成「资料搜集 — 生成文案 — 合成语音旁白 — 配图配乐 — 视频制作」的完整自动化工作流。
MMX-CLI 仅需两行命令完成安装,并与 MiniMax Token Plan 无缝集成,用户通过 MMX-CLI 调用的生成任务直接计入已订阅套餐配额,不产生额外费用。
( @APPSO)
02 有亮点的产品
1、INAIR 完成千万美元 A+ 轮融资:推出 INAIR Pod 便携空间主机,支持 6 屏并发与 3DoF 空间悬停
下一代移动计算公司 INAIR(多屏未来)宣布完成千万美元 A+ 轮融资,由君联资本、高瓴创投、弘晖基金联合投资。公司推出「便携空间主机(PSS)」INAIR Pod,通过算力与显示分离的架构,解决 AR 眼镜在高性能计算下的发热与续航瓶颈,为移动办公提供多窗口空间操作系统。
融资资金将用于产品研发与市场推广;INAIR Pod 已在海内外 XR 极客社区及市场渠道流通,支持主流 AR 硬件接入。
多窗口并发处理能力:搭载自研 INAIR OS 空间操作系统,支持在虚拟空间中同时展开最多 6 块独立屏幕,打破移动端单任务逻辑限制。
3DoF 空间悬停技术:集成 3DoF 交互方案,支持虚拟屏幕在物理空间中的坐标固定,通过头部转动切换视线,降低移动佩戴时的眩晕感。
跨设备生态兼容性:采用开放接口协议,除支持电视、投影仪外,深度兼容 XREAL、雷鸟、VITURE 等主流 AR 眼镜,定位为 XR 领域的通用算力中枢。
高集成度便携形态:整机重量约为传统笔记本电脑的 1/3,专注于替代移动办公场景下的显示扩展与多任务调度需求。
(@极客公园)
2、Enabot 发布 EBO Max:搭载多模态 AI 大脑,支持 4K 成像与长期记忆能力
大疆系背景团队 Enabot(赋之科技)发布新款家庭机器人 EBO Max,售价 499.99 英镑。该产品通过升级 AI 核心架构,实现了从单一宠物陪护到具备多模态感知、自主导航及长期记忆能力的家庭移动智能体的演进。
多模态感知与动态决策:集成视觉、声音和环境意识,支持上下文理解,可根据实时环境反馈执行多步骤任务,并对异常活动进行动态决策。
基于长期记忆的模式学习:具备环境熟悉度积累能力,通过长期记忆学习家庭成员的日常模式,实现更自然的交互响应与任务预测。
4K 高清监控与安全预警:搭载 4K 成像系统,支持双向视频连接,具备跌倒检测等特定安全警报功能。
自主移动导航系统:区别于静态智能相机,支持自主定位家庭成员或宠物,可在全屋范围内执行主动巡检与提醒。
截至 2025 年 9 月,Enabot 全球用户数已突破 100 万,覆盖超过 160 个国家。
(@多知)
03 有态度的观点
1、YC 项目趋势风向标:语音 AI 正告别「秀拟人」,走向「基础设施化」
近日,业内观察人士 Brooke Hopkins 结合近几期顶尖孵化器 Y Combinator(YC)的项目趋势指出,语音 AI 赛道正在发生一场微妙但至关重要的范式转移。
在过去一两年里,行业的大部分精力都集中在打造作为独立产品的「AI 代理(AI Agent)」上。创业者的推销重点往往是系统听起来有多像人类、性格有多丰富,或是致力于打造一个更聪明的「全能接待员」。
然而,近期真正在市场上获得牵引力的初创公司,已经不再将语音包装成供用户把玩的产品。相反,他们将语音定位为「基础设施」,让其隐形并融入现有的工作流程中。 在催收、日程安排、保险验证、物流协调等任务单一、重复性高且吞吐量大的业务场景里,语音正回归其本质——成为最高效的交互界面。
随着语音 AI 成为基础设施,行业的评价语境和构建逻辑也随之重塑。客户的关注点不再是「声音有多自然」或「演示有多酷炫」,而是更务实的核心指标:
它能否切实解决任务?
在高并发状态下是否能保持稳定?
它能否在不增加风险的前提下,可靠地替代 30%的人工队列?
这也意味着,如今的语音 AI 基础设施公司在研发优先级上发生了改变。在打磨所谓的「品牌拟人音色」之前,他们必须优先攻克延迟变化、备用路径、合规性、系统监控以及规模化后的成本问题。
简而言之,行业正在将「可预测性」置于「个性化」之上。
Hopkins 在文章最后总结道:「将语音作为一款产品固然令人兴奋,但将其作为基础设施才具备真正的持久性。在大多数市场中,持久性的复利增长远比一时的兴奋更具商业价值。」
( @bnicholehopkins@X)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
作者提示: 个人观点,仅供参考