YC 项目风向标：语音 AI 正告别「秀拟人」，走向「基础设施化」丨日报

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@koki、@鲍勃

01 有话题的技术

1、Krafton 推出 AI 品牌「Raon」，四款模型全面开源

Krafton 近日宣布推出旗下全新 AI 模型品牌「Raon」，并同步在全球最大 AI 模型平台 Hugging Face 上开源四款模型：

语音驱动大型语言模型 Raon-Speech：参数规模为 9B，支持语音转文本、文本转语音及基于语音的问答等任务。
实时双向语音对话模型 Raon-SpeechChat：采用实时双向通信技术，支持用户在对话过程中自由打断，是韩国首款发布的实时双向语音模型。
文本转语音模型 Raon-OpenTTS：仅使用公共语音数据训练，在语音自然性盲测中，其表现不亚于使用私有数据训练的 TTS 模型。
视觉编码器 Raon-VisionEncoder：可将图像转化为 AI 可理解的信息，支持与语言模型结合，并可从零开始自主训练，无需依赖预训练模型。

( @APPSO)

2、Linq 推出新 API：AI 智能体无缝接入 FaceTime 与 iMessage

Linq API 现已开启早期预览，正式宣布支持 AI 智能体接入 FaceTime 视频通话功能。

用户无需下载安装任何额外的第三方 App，即可直接在熟悉的苹果原生生态（FaceTime 和 iMessage）中与 AI 进行交互，大幅降低了使用门槛。借助该 API，开发者可以将 AI 包装成私人助理、专属健身教练或心理治疗师，通过实时视频的形式为用户提供拟真服务。

目前，该功能已获得行业内头部企业的青睐。知名 AI 视频生成初创公司 Pika Labs （@pika_labs）作为现有客户，已经开始基于该 API 接口构建全新的产品体验。

( @elliott__potter@X)

3、北理工等发布 ATRU 框架：建立动物行为到社交机器人的 6 阶段技术转化路径

北京理工大学与上海创智学院研究团队在 CHI 2026 发表 ATRU 框架，旨在解决动物行为（Ethology）向社交机器人转化过程中的碎片化问题。该框架通过系统化流程，将动物社会互动策略转化为机器人的本体设计、行为序列及交互逻辑，为跨学科机器人研发提供可操作的技术范式

通过建立六阶段全生命周期工作流，该框架确立了从「行为识别、数据采集与表征」到「本体/行为设计、平台部署」再到「指标评估、用户实验」的标准化路径，解决了生物行为特征在工程实现中的断层问题。

将转化过程拆解为本体设计（驱动结构与感官能力复现）、行为构建（动作序列还原与功能类比）以及决策逻辑（基于刺激-响应的交互协议与状态建模）三维度迁移模型。

定义了记录（传感器客观保留）、描述（模式提取与归纳）与阐释（社会意义与任务映射）三个数据处理层次，优化了多模态动物行为数据的利用率。基于 44 个学术及商业案例（如情感表达、学习适应机制等），提炼出针对机器人日常活动与社交互动的具体实现策略。

相关研究成果已收录于 CHI 2026，论文全文待会议召开后正式释出。

( @Research AI+)

4、MiniMax 发布全模态命令行工具 MMX-CLI

昨天，MiniMax 正式发布了 MMX-CLI，一款专为 AI 智能体设计的全模态命令行工具。

其核心定位是将 MiniMax 的多模态能力以命令行形式交付给 AI 智能体，使其能够在 Claude Code、OpenClaw 等主流智能体运行环境中，直接调用图像生成、视频生成、语音合成、音乐创作等模型能力。

MiniMax 方面表示，借助 MMX-CLI，一个 AI 智能体可以独立完成「资料搜集 — 生成文案 — 合成语音旁白 — 配图配乐 — 视频制作」的完整自动化工作流。

MMX-CLI 仅需两行命令完成安装，并与 MiniMax Token Plan 无缝集成，用户通过 MMX-CLI 调用的生成任务直接计入已订阅套餐配额，不产生额外费用。

( @APPSO)

02 有亮点的产品

1、INAIR 完成千万美元 A+ 轮融资：推出 INAIR Pod 便携空间主机，支持 6 屏并发与 3DoF 空间悬停

下一代移动计算公司 INAIR（多屏未来）宣布完成千万美元 A+ 轮融资，由君联资本、高瓴创投、弘晖基金联合投资。公司推出「便携空间主机（PSS）」INAIR Pod，通过算力与显示分离的架构，解决 AR 眼镜在高性能计算下的发热与续航瓶颈，为移动办公提供多窗口空间操作系统。

融资资金将用于产品研发与市场推广；INAIR Pod 已在海内外 XR 极客社区及市场渠道流通，支持主流 AR 硬件接入。

多窗口并发处理能力：搭载自研 INAIR OS 空间操作系统，支持在虚拟空间中同时展开最多 6 块独立屏幕，打破移动端单任务逻辑限制。
3DoF 空间悬停技术：集成 3DoF 交互方案，支持虚拟屏幕在物理空间中的坐标固定，通过头部转动切换视线，降低移动佩戴时的眩晕感。
跨设备生态兼容性：采用开放接口协议，除支持电视、投影仪外，深度兼容 XREAL、雷鸟、VITURE 等主流 AR 眼镜，定位为 XR 领域的通用算力中枢。
高集成度便携形态：整机重量约为传统笔记本电脑的 1/3，专注于替代移动办公场景下的显示扩展与多任务调度需求。

（@极客公园）

2、Enabot 发布 EBO Max：搭载多模态 AI 大脑，支持 4K 成像与长期记忆能力

大疆系背景团队 Enabot（赋之科技）发布新款家庭机器人 EBO Max，售价 499.99 英镑。该产品通过升级 AI 核心架构，实现了从单一宠物陪护到具备多模态感知、自主导航及长期记忆能力的家庭移动智能体的演进。

多模态感知与动态决策：集成视觉、声音和环境意识，支持上下文理解，可根据实时环境反馈执行多步骤任务，并对异常活动进行动态决策。
基于长期记忆的模式学习：具备环境熟悉度积累能力，通过长期记忆学习家庭成员的日常模式，实现更自然的交互响应与任务预测。
4K 高清监控与安全预警：搭载 4K 成像系统，支持双向视频连接，具备跌倒检测等特定安全警报功能。
自主移动导航系统：区别于静态智能相机，支持自主定位家庭成员或宠物，可在全屋范围内执行主动巡检与提醒。

截至 2025 年 9 月，Enabot 全球用户数已突破 100 万，覆盖超过 160 个国家。

（@多知）

03 有态度的观点

1、YC 项目趋势风向标：语音 AI 正告别「秀拟人」，走向「基础设施化」

近日，业内观察人士 Brooke Hopkins 结合近几期顶尖孵化器 Y Combinator（YC）的项目趋势指出，语音 AI 赛道正在发生一场微妙但至关重要的范式转移。

在过去一两年里，行业的大部分精力都集中在打造作为独立产品的「AI 代理（AI Agent）」上。创业者的推销重点往往是系统听起来有多像人类、性格有多丰富，或是致力于打造一个更聪明的「全能接待员」。

然而，近期真正在市场上获得牵引力的初创公司，已经不再将语音包装成供用户把玩的产品。相反，他们将语音定位为「基础设施」，让其隐形并融入现有的工作流程中。 在催收、日程安排、保险验证、物流协调等任务单一、重复性高且吞吐量大的业务场景里，语音正回归其本质——成为最高效的交互界面。

随着语音 AI 成为基础设施，行业的评价语境和构建逻辑也随之重塑。客户的关注点不再是「声音有多自然」或「演示有多酷炫」，而是更务实的核心指标：

它能否切实解决任务？
在高并发状态下是否能保持稳定？
它能否在不增加风险的前提下，可靠地替代 30%的人工队列？

这也意味着，如今的语音 AI 基础设施公司在研发优先级上发生了改变。在打磨所谓的「品牌拟人音色」之前，他们必须优先攻克延迟变化、备用路径、合规性、系统监控以及规模化后的成本问题。

简而言之，行业正在将「可预测性」置于「个性化」之上。

Hopkins 在文章最后总结道：「将语音作为一款产品固然令人兴奋，但将其作为基础设施才具备真正的持久性。在大多数市场中，持久性的复利增长远比一时的兴奋更具商业价值。」

( @bnicholehopkins@X)

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

作者提示: 个人观点，仅供参考