曝 OpenAI 在研发全新双向音频模型；语音社交森森基于副语言信号实现 AI 人格建模，估值 1.5 亿美元丨日报

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@koki、@鲍勃

01 有话题的技术

1、RunAnywhere 推出 RCLI，实现 131ms 端到端本地语音控制架构

RunAnywhere 发布的开源项目 RCLI 实现了 macOS 环境下全本地化的 Voice + RAG 闭环流水线。该系统通过优化端到端推理路径，将「语音输入至指令执行」的延迟压缩至～131ms，目前支持 43 项原生 macOS 自动化操作（覆盖 Spotify、窗口管理、FaceTime 等）。项目采用全开源模式，核心逻辑完全脱离云端，确保数据本地化存储与处理。

RCLI 的技术核心在于针对 Apple Silicon 深度优化的推理链路。下一版本计划引入 MetalRT 支持，届时预计 decode 速度可达 658 tok/s，并显著提升自动语音识别（ASR）与语音合成（TTS）的并发性能。该架构利用本地 RAG 插件实现文档问答与实时系统控制的协同，通过高性能本地推断规避了传统云端助理的延迟瓶颈。

GitHub 链接：

https://github.com/RunanywhereAI/RCLI

( @sanchitmonga22@x)

2、北京大学开源 Helios 14B，实现单卡 H100 视频实时生成

北京大学（PKU-YuanGroup）正式开源 Helios，这是一个参数量达 14B 的高性能视频生成模型。该模型通过架构优化，在单张 NVIDIA H100 上实现了实时生成（Real-time Generation），其推理速度超越了常规 1.3B 规模的模型，显著降低了高参数量模型在视频流合成中的延迟瓶颈。

Helios 架构原生支持多种生成范式与交互模式，具备类「世界模型（World Models）」的物理模拟潜力：

多模态输入：完整覆盖 Text-to-Video （T2V）、Image-to-Video （I2V） 及 Video-to-Video （V2V） 任务。
交互式生成：支持实时交互控制，允许用户在生成过程中干预视频状态，模拟动态环境反馈。
高效率推理：14B 参数量级下实现实时输出，标志着视频扩散模型或自回归模型在算力利用率上的重大突破。

目前该项目已在 GitHub 开源，提供模型权重与推理脚本。

GitHub 链接：

https://github.com/PKU-YuanGroup/Helios

( @Gorden_Sun@X)

3、OpenAI 研发 BiDi 双向音频模型，旨在攻克实时中断与工具调用

OpenAI 正在研发代号为 BiDi（Bidirectional） 的新型实时音频模型，旨在打破当前 Advanced Voice Mode 的轮询式（Turn-based）交互局限。该模型的核心突破在于持续处理能力，允许 AI 在输出过程中实时感知输入信号并调整响应逻辑，而非在遭遇中断（如「OK」或「嗯」）时简单停顿或失效。

双向流式交互：BiDi 改变了固定响应生成机制，支持在语音输出期间动态修正预测路径，适用于复杂的服务场景（如客服场景中的中途需求变更）。
外部工具集成：据内部人士透露，该模型在外部工具与 API 调用的协同效率上优于现有模型，预示其将成为未来 AI 硬件（如智能音箱）的核心交互层。
技术瓶颈：目前原型机存在稳定性缺陷，长时对话（数分钟后）易触发异常音色或逻辑溃缩（Glitching）。
交付计划：原定于 2026 年 Q1 发布，受稳定性影响，预计推迟至 Q2 或更晚。

（@TheInformation;@investing.com)

02 有亮点的产品

1、苹果「HomePad」智能家居中枢推迟至 2026 年秋季发布

据原型机收集者「Kosutami」最新消息，苹果长期传闻中的智能家居中枢设备「HomePad」将推迟至 2026 年秋季推出，比预期时间更晚。

Kosutami 在 X 平台上发帖表示，该设备将于 9 月至 12 月的秋季期间问世，这通常是苹果一年中最繁忙的产品发布窗口。苹果已为此设备研发数年，旨在打造智能家居控制中心，用户可通过它统一管理家居产品、播放音乐和播客、进行视频通话，并查看天气、日历等即时信息。

设备预计配备 7 英寸方形显示屏和前置摄像头，可能推出两种版本：一款壁挂式，另一款带有类似 HomePod mini 扬声器底座的桌面款。内置传感器能检测附近人员，并根据身份调整显示内容。它将高度依赖 Siri 语音指令，Siri 在设备上可能呈现拟人化界面，如 Mac Finder 图标的变体设计。

苹果预计定价约 350 美元。该设备原计划 2025 年初发布，后因 Apple Intelligence 开发延误移至 2026 年初，如今进一步推至秋季，或与 iPhone 18 Pro 或全新 MacBook Pro 一同亮相。

（@极客公园）

2、VoiceLine 获 1000 万欧元 A 轮，用于扩展语音 AI 在欧洲企业一线应用

慕尼黑初创公司 VoiceLine 近日宣布完成 1000 万欧元 A 轮融资。本轮由 Alstin Capital 与 Peak 领投，Scalehouse Capital、Venture Stars 及 NAP 跟投。资金将主要用于扩展全球市场及深化针对移动端一线员工（Frontline Workers）的语音 AI 技术研发。

VoiceLine 旨在通过语音交互解决现场销售、服务及运营人员在移动场景下的数据录入延迟问题。

其主要技术有：

异步语音采集：取代传统的手动文本输入，支持现场语音实时抓取。
结构化处理引擎：利用 AI 自动将非结构化语音转化为标准访问报告、CRM 条目及待办任务。
企业级系统集成：原生对接主流 CRM（如 Salesforce， HubSpot）及 ERP 逻辑，确保数据实时同步至企业现有工作流。
多模态输出：系统根据预设规则，自动从单条语音记录中提取并分发至不同业务模块，降低信息衰减。

该方案旨在重塑一线业务的标准化文档沉淀，通过「语音即接口」的设计理念减少员工对移动端 UI 的高频依赖，从根源上消除因「事后补录」导致的数据滞后与信息黑盒问题。

目前，VoiceLine 已在制造、物流及服务业完成闭环落地，为分布式移动团队提供实时、高保真的数据反馈链路，将非结构化现场交互转化为具备可追溯性的企业数字资产，显著提升了管理端的全局可见性。

未来，voiceline 将以德国为中心向全欧洲及全球市场渗透，强化多语言环境下的企业级语音 AI 部署能力。同时开发更多适配现场业务的垂直用例（Use Cases），提升对复杂业务逻辑的识别精度。

( @thenextweb)

3、语音社交 App 森森（Gensen）MAU 突破 260 万：基于副语言信号与游戏行为实现 AI 人格建模

由暴雪与皮克斯资深开发人员创立的社交产品森森（Gensen），通过 3D 语音游戏场景捕捉用户的实时声音特征与交互行为，利用 AI 建模替代传统社交产品的静态图文匹配。目前该产品 MAU 已达 260 万，估值 1.5 亿美元，旨在解决 AI 时代生成内容带来的社交信息信任危机。

副语言信号（Paralinguistic signals）特征分析：系统通过 AI 提取语调起伏、语速节奏、停顿、笑声音频等非语言声学特征。这些信号因具有实时性且难以通过 AI 实时伪造，被作为识别用户性格与情绪状态的核心数据源。

游戏化行为数据标注：利用「海龟汤」、「森森酒馆」等 3D 语音场景，将社交匹配从「自我陈述」转向「行为观测」。系统通过观测用户在游戏逻辑推理、抗压表现及社交直觉中的本能反应，进行多维度的人格特征画像。
匿名化统计建模逻辑：系统在不涉及具体语音内容存储的前提下，对表达方式（声学特征）和语言模式（用词习惯、互动逻辑）进行统计建模。匹配逻辑基于用户真实的互动风格而非用户填写的问卷标签。
高增长与资本准入：产品曾位列 iOS 社交榜前 20，累计融资金额超 4500 万美元。目前已在上海与 Palo Alto 设立双总部，并获得 A16Z 及腾讯的投资意向。

国内版已上线运营；美国版 Gensen 正在进行上线准备；已完成 A 轮融资，累计融资约 3.1 亿元人民币。

（@量子位）

03 有态度的观点

1、雷军：AI 不会消灭工作，未来每天上班两小时就够了

近日，全国人大代表，小米集团创始人、董事长兼 CEO 雷军在接受采访时表示，在人工智能时代，或许很多规则将被重写，但同时又会产生很多新的岗位。

雷军建议，大家要用开放的心态，迎接更先进的时代。未来，也许不再需要每天工作 8 小时、每周工作 5 天了，或许一周仅需工作 3 天，每天工作 2 个小时。我们的生活质量、工作质量都会大幅度提升。

前不久，小米机器人走进小米工厂开始拧螺丝了，雷军表示未来 5 年会有更多的人形机器人走进小米的工厂。

对此，雷军进一步阐述称：「我们已经进入人工智能的时代，这是毫无疑问的共识。」

（@极客公园）

04 社区黑板报

招聘、项目分享、求助……任何你想和社区分享的信息，请联系我们投稿。（加微信 creators2022，备注「社区黑板报」）

1、AveraLabs — 语音 AI 研究工程师 / Research Engineer， Voice AI

我们是一家来自美国旧金山的语音 AI 初创团队，正在打造下一代「全双工语音交互」系统，目标是让它通过图灵测试，创造像真人一样的自然对话。

创始团队

YC 连续创业者，均来自 UC Berkeley / Rice University
BCV Labs 贝恩资本孵化器创始成员
前 Cruise 自动驾驶模拟算法 lead
Databento（Bloomberg 最大竞品）第一任 PM
曾主导 Pinterest 增长
获 Y Combinator、Rebel Fund、Afore Capital、UpHonest Capital 等顶尖机构投资

你会做什么

研究并实现低延迟全双工语音对话模型
设计语音 tokenizer、streaming encoder/decoder、duplex 状态机等核心模块
解决真实场景下的打断检测、情感建模、paralinguistic 特征保留等挑战
跟踪 Moshi / Freeze-Omni / MiMo-Audio 等前沿工作，快速内化并超越

我们在找什么人

顶校 CS/EE/信号处理硕博，或同等工业界经历
深度理解语音+LLM 交叉领域：audio codec、speech LM、multimodal training
有 ICASSP / Interspeech / NeurIPS / ICLR 等一作/核心贡献者经验优先
有过全双工、streaming audio tokenizer、低延迟系统落地经验者强烈优先

加分项

待过 Alibaba/Tencent/Xiaomi/字节/小红书/SOUL 语音团队
做过 neural audio codec（RVQ/VQ-VAE）、语音情感建模、低延迟 TTS
对"为什么当前语音 AI 还不像真人对话"有深入研究和独到见解

我们给什么

超 BAT 薪资水平 + equity（early stage，上车要趁早）
直接参与定义核心架构，不做螺丝钉
小团队，快速迭代，做完就上线

有兴趣 or 知道合适的人，微信/邮件联系：richardh@averalabs.com

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

作者提示: 个人观点，仅供参考