曝 OpenAI 在研发全新双向音频模型;语音社交森森基于副语言信号实现 AI 人格建模,估值 1.5 亿美元丨日报

图片


开发者朋友们大家好:


这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@鲍勃

01 有话题的技术

1、RunAnywhere 推出 RCLI,实现 131ms 端到端本地语音控制架构

RunAnywhere 发布的开源项目 RCLI 实现了 macOS 环境下全本地化的 Voice + RAG 闭环流水线。该系统通过优化端到端推理路径,将「语音输入至指令执行」的延迟压缩至 ~131ms,目前支持 43 项原生 macOS 自动化操作(覆盖 Spotify、窗口管理、FaceTime 等)。项目采用全开源模式,核心逻辑完全脱离云端,确保数据本地化存储与处理。

RCLI 的技术核心在于针对 Apple Silicon 深度优化的推理链路。下一版本计划引入 MetalRT 支持,届时预计 decode 速度可达 658 tok/s,并显著提升自动语音识别(ASR)与语音合成(TTS)的并发性能。该架构利用本地 RAG 插件实现文档问答与实时系统控制的协同,通过高性能本地推断规避了传统云端助理的延迟瓶颈。


GitHub 链接:

https://github.com/RunanywhereAI/RCLI


( @sanchitmonga22@x)



2、北京大学开源 Helios 14B,实现单卡 H100 视频实时生成

北京大学(PKU-YuanGroup)正式开源 Helios,这是一个参数量达 14B 的高性能视频生成模型。该模型通过架构优化,在单张 NVIDIA H100 上实现了实时生成(Real-time Generation),其推理速度超越了常规 1.3B 规模的模型,显著降低了高参数量模型在视频流合成中的延迟瓶颈。

Helios 架构原生支持多种生成范式与交互模式,具备类「世界模型(World Models)」的物理模拟潜力:


  • 多模态输入:完整覆盖 Text-to-Video (T2V)Image-to-Video (I2V) 及 Video-to-Video (V2V) 任务。

  • 交互式生成:支持实时交互控制,允许用户在生成过程中干预视频状态,模拟动态环境反馈。

  • 高效率推理:14B 参数量级下实现实时输出,标志着视频扩散模型或自回归模型在算力利用率上的重大突破。


目前该项目已在 GitHub 开源,提供模型权重与推理脚本。


GitHub 链接:

https://github.com/PKU-YuanGroup/Helios


( @Gorden_Sun@X)



3、OpenAI 研发 BiDi 双向音频模型,旨在攻克实时中断与工具调用

OpenAI 正在研发代号为 BiDi(Bidirectional) 的新型实时音频模型,旨在打破当前 Advanced Voice Mode 的轮询式(Turn-based)交互局限。该模型的核心突破在于持续处理能力,允许 AI 在输出过程中实时感知输入信号并调整响应逻辑,而非在遭遇中断(如 「OK」或 「嗯」)时简单停顿或失效。


  • 双向流式交互:BiDi 改变了固定响应生成机制,支持在语音输出期间动态修正预测路径,适用于复杂的服务场景(如客服场景中的中途需求变更)。

  • 外部工具集成:据内部人士透露,该模型在外部工具与 API 调用的协同效率上优于现有模型,预示其将成为未来 AI 硬件(如智能音箱)的核心交互层。

  • 技术瓶颈:目前原型机存在稳定性缺陷,长时对话(数分钟后)易触发异常音色或逻辑溃缩(Glitching)

  • 交付计划:原定于 2026 年 Q1 发布,受稳定性影响,预计推迟至 Q2 或更晚


(@TheInformation;@investing.com)



02 有亮点的产品

1、苹果「HomePad」智能家居中枢推迟至 2026 年秋季发布

图片


据原型机收集者「Kosutami」最新消息,苹果长期传闻中的智能家居中枢设备「HomePad」将推迟至 2026 年秋季推出,比预期时间更晚。


Kosutami 在 X 平台上发帖表示,该设备将于 9 月至 12 月的秋季期间问世,这通常是苹果一年中最繁忙的产品发布窗口。苹果已为此设备研发数年,旨在打造智能家居控制中心,用户可通过它统一管理家居产品、播放音乐和播客、进行视频通话,并查看天气、日历等即时信息。


设备预计配备 7 英寸方形显示屏和前置摄像头,可能推出两种版本:一款壁挂式,另一款带有类似 HomePod mini 扬声器底座的桌面款。内置传感器能检测附近人员,并根据身份调整显示内容。它将高度依赖 Siri 语音指令,Siri 在设备上可能呈现拟人化界面,如 Mac Finder 图标的变体设计。


苹果预计定价约 350 美元。该设备原计划 2025 年初发布,后因 Apple Intelligence 开发延误移至 2026 年初,如今进一步推至秋季,或与 iPhone 18 Pro 或全新 MacBook Pro 一同亮相。


(@极客公园)


2、VoiceLine 获 1000 万欧元 A 轮,用于扩展语音 AI 在欧洲企业一线应用

图片


慕尼黑初创公司 VoiceLine 近日宣布完成 1000 万欧元 A 轮融资。本轮由 Alstin Capital 与 Peak 领投,Scalehouse Capital、Venture Stars 及 NAP 跟投。资金将主要用于扩展全球市场及深化针对移动端一线员工(Frontline Workers)的语音 AI 技术研发。


VoiceLine 旨在通过语音交互解决现场销售、服务及运营人员在移动场景下的数据录入延迟问题。


其主要技术有


  • 异步语音采集:取代传统的手动文本输入,支持现场语音实时抓取。

  • 结构化处理引擎:利用 AI 自动将非结构化语音转化为标准访问报告、CRM 条目及待办任务

  • 企业级系统集成:原生对接主流 CRM(如 Salesforce, HubSpot)及 ERP 逻辑,确保数据实时同步至企业现有工作流。

  • 多模态输出:系统根据预设规则,自动从单条语音记录中提取并分发至不同业务模块,降低信息衰减。


该方案旨在重塑一线业务的标准化文档沉淀,通过「语音即接口」的设计理念减少员工对移动端 UI 的高频依赖,从根源上消除因「事后补录」导致的数据滞后与信息黑盒问题。


目前,VoiceLine 已在制造、物流及服务业完成闭环落地,为分布式移动团队提供实时、高保真的数据反馈链路,将非结构化现场交互转化为具备可追溯性的企业数字资产,显著提升了管理端的全局可见性。


未来,voiceline 将以德国为中心向全欧洲及全球市场渗透,强化多语言环境下的企业级语音 AI 部署能力。同时开发更多适配现场业务的垂直用例(Use Cases),提升对复杂业务逻辑的识别精度。


( @thenextweb)


3、语音社交 App 森森(Gensen)MAU 突破 260 万:基于副语言信号与游戏行为实现 AI 人格建模

图片


由暴雪与皮克斯资深开发人员创立的社交产品森森(Gensen),通过 3D 语音游戏场景捕捉用户的实时声音特征与交互行为,利用 AI 建模替代传统社交产品的静态图文匹配。目前该产品 MAU 已达 260 万,估值 1.5 亿美元,旨在解决 AI 时代生成内容带来的社交信息信任危机。


  • 副语言信号(Paralinguistic signals)特征分析:系统通过 AI 提取语调起伏、语速节奏、停顿、笑声音频等非语言声学特征。这些信号因具有实时性且难以通过 AI 实时伪造,被作为识别用户性格与情绪状态的核心数据源。


图片


  • 游戏化行为数据标注:利用「海龟汤」、「森森酒馆」等 3D 语音场景,将社交匹配从「自我陈述」转向「行为观测」。系统通过观测用户在游戏逻辑推理、抗压表现及社交直觉中的本能反应,进行多维度的人格特征画像。

  • 匿名化统计建模逻辑:系统在不涉及具体语音内容存储的前提下,对表达方式(声学特征)和语言模式(用词习惯、互动逻辑)进行统计建模。匹配逻辑基于用户真实的互动风格而非用户填写的问卷标签。

  • 高增长与资本准入:产品曾位列 iOS 社交榜前 20,累计融资金额超 4500 万美元。目前已在上海与 Palo Alto 设立双总部,并获得 A16Z 及腾讯的投资意向。


国内版已上线运营;美国版 Gensen 正在进行上线准备;已完成 A 轮融资,累计融资约 3.1 亿元人民币。


(@量子位)



03 有态度的观点 

1、雷军:AI 不会消灭工作,未来每天上班两小时就够了

图片


近日,全国人大代表,小米集团创始人、董事长兼 CEO 雷军在接受采访时表示,在人工智能时代,或许很多规则将被重写,但同时又会产生很多新的岗位。


雷军建议,大家要用开放的心态,迎接更先进的时代。未来,也许不再需要每天工作 8 小时、每周工作 5 天了,或许一周仅需工作 3 天,每天工作 2 个小时。我们的生活质量、工作质量都会大幅度提升。


前不久, 小米机器人走进小米工厂开始拧螺丝了,雷军表示未来 5 年会有更多的人形机器人走进小米的工厂。


对此,雷军进一步阐述称:「我们已经进入人工智能的时代,这是毫无疑问的共识。」


(@极客公园)



04 社区黑板报 

招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)


1、AveraLabs — 语音 AI 研究工程师 / Research Engineer, Voice AI

我们是一家来自美国旧金山的语音 AI 初创团队,正在打造下一代「全双工语音交互」系统,目标是让它通过图灵测试,创造像真人一样的自然对话。


创始团队


  • YC 连续创业者,均来自 UC Berkeley / Rice University

  • BCV Labs 贝恩资本孵化器创始成员

  • 前 Cruise 自动驾驶模拟算法 lead

  • Databento(Bloomberg 最大竞品)第一任 PM

  • 曾主导 Pinterest 增长

  • 获 Y Combinator、Rebel Fund、Afore Capital、UpHonest Capital 等顶尖机构投资


你会做什么


  • 研究并实现低延迟全双工语音对话模型

  • 设计语音 tokenizer、streaming encoder/decoder、duplex 状态机等核心模块

  • 解决真实场景下的打断检测、情感建模、paralinguistic 特征保留等挑战

  • 跟踪 Moshi / Freeze-Omni / MiMo-Audio 等前沿工作,快速内化并超越


我们在找什么人


  • 顶校 CS/EE/信号处理硕博,或同等工业界经历

  • 深度理解语音+LLM 交叉领域:audio codec、speech LM、multimodal training

  • 有 ICASSP / Interspeech / NeurIPS / ICLR 等一作/核心贡献者经验优先

  • 有过全双工、streaming audio tokenizer、低延迟系统落地经验者强烈优先


加分项


  • 待过 Alibaba/Tencent/Xiaomi/字节/小红书/SOUL 语音团队

  • 做过 neural audio codec(RVQ/VQ-VAE)、语音情感建模、低延迟 TTS

  • 对"为什么当前语音 AI 还不像真人对话"有深入研究和独到见解


我们给什么


  • 超 BAT 薪资水平 + equity(early stage,上车要趁早)

  • 直接参与定义核心架构,不做螺丝钉

  • 小团队,快速迭代,做完就上线


有兴趣 or 知道合适的人,微信/邮件联系:richardh@averalabs.com

图片


阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

作者提示: 个人观点,仅供参考

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    关键词
    // 相关帖子
    Coming soon...
    • 0
    曝 OpenAI 在研发全新双向音频模型;语音社交森森基于副语言信号实现 AI 人格建模,估值 1.5 亿美元丨日报RTRTE_Dev_Comm