OpenAI 手机曝光:联合联发科/高通,预计 28 年量产丨日报

图片


开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@鲍勃


01 有话题的技术

1、xAI 发布 grok-voice-think-fast-1.0:τ-voice Bench 评分达 67.3%,支持零延迟背景推理

图片


xAI 发布旗舰级语音智能体模型 grok-voice-think-fast-1.0,专门用于处理复杂、多步骤的生产级工作流。该模型在 τ-voice Bench 基准测试中显著超越 Google 与 OpenAI 的同类产品,并已在 Starlink 客服及销售系统中完成大规模生产部署。


  • 全双工 (Full-duplex) 交互能力: 系统支持同步处理语音输入与响应生成,无需等待说话者停顿即可开始「思考」。该架构允许智能体在实时对话中处理打断、背景噪音及用户自我纠错(如中途修改地址),实现接近人类的自然轮转。

  • 隐藏式背景推理架构: 模型在处理复杂查询时在背景端进行推理计算,将推理 token 的生成延迟隐藏在对话预算之外,解决了传统推理模型因生成中间逻辑导致响应停滞的技术瓶颈。

  • τ-voice Bench 性能压制: 综合评分达 67.3%(Gemini 3.1 Flash Live 为 43.8%,GPT Realtime 1.5 为 35.3%)。在电信垂直领域,该模型领先次优竞品 33 个百分点,表现出极高的结构化数据(如邮箱、地址、账号)捕获与校验精度。

  • Starlink 生产级实测数据: 模型已支持 25+ 语言及 28 种外部工具调用。在 Starlink 的实际应用中,实现了 70% 的客户咨询自主解决率(无人工干预)及 20% 的销售转化率


(@marktechpost)


2、阶跃星辰发布 StepAudio 2.5 ASR:引入 MTP-5 架构实现 500TPS 推理,支持 30 分钟无切片转写

阶跃星辰推出基于 ASR+MTP-5 深度融合架构的新一代自动语音识别模型 StepAudio 2.5 ASR。该模型通过将 LLM 推理加速技术引入语音领域,实现了 500 tokens/s 的峰值推理速度,并支持单次最长 30 分钟音频的原生端到端转写,旨在解决长音频转写中的上下文断裂与高推理延迟问题。


  • ASR+MTP-5 融合架构:引入 Step 3.5 Flash 同款的多 Token 预测(Multi-Token Prediction)技术,改变传统自回归逐个 Token 输出的模式,支持一次预测多个候选 Token 并行验证,使吞吐量提升 400%,时延降低 60%。

  • 32K 原生上下文窗口:复用 LLM 原生长上下文能力,支持单次 30 分钟音频的端到端处理,彻底抛弃传统的「切片-转写-拼接」方案,解决了切片识别导致的上下文信息丢失以及长音频后半段精度衰减的工程难题。

  • 500 TPS 推理与 80% 成本削减:推理峰值达 500 tokens/s,实测 5 分钟音视频可实现秒级转写;得益于推理效率的指数级提升,该模型的整体推理成本较前代降低了 80%。

  • 多场景 SOTA 精度表现:在 LibriSpeech(英文)及涵盖新闻播报、强噪声环境、会议访谈的 5 个权威中文开源测试集中达到 SOTA 水平,且在 30 分钟满载输入状态下转写字错误率(WER/CER)表现稳定。


(@阶跃星辰)


3、西工大发布全双工语音评测基准:量化 AI 在真实对话中的打断响应与干扰拒绝能力

西北工业大学 ASLP 实验室联合南京大学、AISHELL 发布了 HumDial-FDBench,这是一个专门用于评估语音 AI「边听边说」能力的技术基准。它通过 100 小时真实对话数据,解决了当前语音系统在处理用户插话、背景干扰时缺乏统一量化标准的问题。


  • 真人录制双通道数据集:覆盖中英双语 100+ 小时,由专业演员按脚本录制,保留了真实的重叠时序(Overlapping)、韵律变化、犹豫停顿及非言语反馈,而非通过合成音频叠加。

  • 8 类细粒度交互场景:包含 5 类打断场景(追加提问、否定、重复请求、话题切换、停止命令)及 3 类拒绝场景(实时反馈回应、停顿处理、第三方语音干扰),覆盖全双工交互的典型边界。

  • 多维响应延迟度量:新引入 First response latency(用户提问结束至系统首个音频帧响应的间隔)、Stop latency(系统检测到打断至停止输出的延迟)及 Response latency(生成完整新回复的延迟)。

  • 行为分类评估体系:利用 ASR 时间对齐转录文本,并结合 DeepSeek-V3 将系统行为分类为 Respond(响应打断)及 Resume(忽略干扰并恢复输出),通过加权计算打断得分(40%)、拒绝得分(40%)和延迟得分(20%)。

  • 架构性能实测对比:评测显示级联式(Cascaded)系统(如冠军 Cookie asr,总分 76.6)目前在打断/拒绝均衡性上优于原生端到端模型;Gemini 2.5 打断能力强(79.8 分)但拒绝得分极低(36.5 分),难以区分背景噪音与有效指令。


GitHub 链接:

https://github.com/ASLP-lab/HumDial-FDBench


(@模型之声)



02 有亮点的产品

1、华为发布鸿蒙座舱 AI 机器人 HAMOMO:支持跨场景物理联动与小艺大模型深度集成

图片


近日,在华为乾崑技术大会上,华为发布了一款鸿蒙座舱 AI 陪伴机器人「HAMOMO 哈蒙蒙」,这是华为在车载 AI 交互领域的一次新尝试。


从外观来看,「哈蒙蒙」软萌可爱。据介绍,「哈蒙蒙」能和华为小艺实时进行联动,产生丰富有趣的表情。在车上,「哈蒙蒙」可以吸附在车机屏幕上,能转动脑袋。


此外,「哈蒙蒙」还能随身携带,可以作为一个独立的 AI 陪伴机器人继续使用,是一个具备跨场景能力的 AI 陪伴设备。这一设计也降低了用户付费决策的心理门槛


从早期的导航、音乐、电话等基础功能,到能够理解自然语言的智能语音助手,再到如今提供情感交互的 AI 陪伴机器人/AI 陪伴玩偶,车载智能系统正经历着一场深刻的进化。


作为这一趋势下「从功能性工具向情感化伙伴演进」的代表性产品,车载 AI 陪伴机器人正受到越来越多厂商的重视。


(@多知)

2、Sinai.ai 获 145 万美元 Pre-seed 轮融资:推出专利 aiBooks 格式,实现 100% 授权内容的实时交互与多模态转换

图片


埃及 AI 阅读平台 Sinai.ai 近日完成 145 万美元 Pre-seed 轮融资,由 KAUST Innovation Ventures 和 DisrupTech Ventures 领投。该公司通过其专利 aiBooks 格式,将传统静态书籍转化为支持多模态交互、语义检索及个性化内容生成的动态平台,旨在解决 AI 阅读中的版权合规与交互深度问题


  • aiBooks 专利格式:采用受商标及专利保护的新型数字图书架构,将静态文本重构为融合音频、可视化图表和多语言翻译的动态多模态数据流,支持阅读与收听模式的无缝切换。

  • 100% 授权的合规数据集:区别于通用 LLM 抓取公开数据的模式,Sinai 直接接入出版商授权的全文库,确保 AI 逻辑在合法版权边界内对完整书籍进行处理,规避了大模型常见的侵权风险。

  • 基于 Context 的实时生成能力:用户可针对特定章节或全书进行深度语义提问,系统能自动生成配套的定制化练习册、随堂测验或综合考试,实现从「被动阅读」向「主动学习」的功能转变。

  • 垂直领域 RAG 落地应用:该平台已收录数千种图书并与数十家出版商建立合作,通过在受控的私域书籍数据上运行 AI 接口,提升了知识检索的准确性与权威性。


(@多知)


3、彼岸心智发布「美刻」AI 冥想坐垫:基于高精度生物反馈,实现冥想状态的全程可视化交互

图片


图片


图片


图片


中科院心理所孵化团队「彼岸心智」推出自研硬件「美刻 AI 冥想坐垫」。该产品通过高精度生物传感器捕捉呼吸节律与自主神经信号,改变了传统冥想「无反馈、难量化」的黑盒状态,通过数据可视化构建起「生理采集-状态评估-视觉反馈」的闭环交互链路


  • 非干预式生物反馈交互:产品放弃了震动、加热等主动干预手段,核心交互逻辑在于「记录与反馈」。通过将不可感知的心率变异性(HRV)、呼吸频率转化为直观的心理效价数据,引导用户进行自我调节。

  • 高采样率生理建模:依托 R-R 间期(心率间期)、皮电、交感与副交感神经活动等生理指标,建立不可伪装的情绪模型。其呼吸监测精度优于腕部穿戴设备,能实时捕捉冥想深度中的微小呼吸波动。

  • 双模式交互逻辑:针对不同受众内置「新手入门」与「资深精进」双重模式。系统根据实时生理反馈自动匹配交互指引,覆盖从 0 基础呼吸引导到长期冥想状态监测的全生命周期。

  • 多维数据可视化闭环:通过自研的情绪算法,将抽象的冥想过程转化为可视化的生理/心理数据报告。用户可通过长期进度数据观察身心改善结果,实现基于量化指标的「自我干预」。


(@后浪 new)

4、OpenAI 自研手机处理器与硬件矩阵曝光:联合联发科/高通开发,预计 2028 年量产

图片


图片


OpenAI 正通过垂直整合策略进入硬件市场,联合联发科、高通研发定制化手机处理器,并由立讯精密负责独家设计与制造。该计划旨在打破现有移动操作系统(iOS/Android)对智能体(agent)调用的权限沙箱限制,构建以 AI 为核心底层的全新硬件生态,手机量产节点定于 2028 年。


  • SoC 研发与供应链布局:OpenAI 联合联发科、高通开发 AI 手机处理器,预计 2026 年底确定规格及供应商。制造端由立讯精密提供系统协力设计(JDM)与组装。

  • AI 原生操作系统(AIOS)架构:取消传统 App 「货架式」界面,改由智能体通过理解用户意图直接调度底层资源。技术栈强调云端与端侧高度整合,涉及 2nm 芯片、内存分层管理及本地小模型优化。

  • 硬件全家桶路线图:除手机外,OpenAI 计划于 2027 年 2 月发布智能音箱(200-300 美元),并同步研发代号为 “Dime” 的 AI 耳机及智能眼镜。

  • 苹果系核心团队组建:硬件团队由前苹果首席设计官 Jony Ive 的 LoveFrom 工作室操刀,并吸纳超过 20 名苹果原硬件高管(如 Tang Tan、Evans Hankey),复用苹果供应链(立讯、歌尔)以降低制造门槛。

  • 商业模式转型:预测采取硬件补贴与 ChatGPT Plus 订阅服务捆绑模式,通过硬件终端作为最大分发渠道,获取用户实时状态(位置、支付、身体数据)以提升推理精度。


(@APPSO)



03 有态度的观点


1、美联储研究:自 ChatGPT 上线以来,美国编程岗位三年少了 50 万

图片


美联储理事会日前发布的一项工作论文显示,自 2022 年 11 月 ChatGPT 上线以来,美国编程相关岗位的就业增速已近乎腰斩。


研究团队将劳工部职业数据库与住户就业调查交叉比对,锁定约占全美劳动力 3.7% 的编程密集型岗位。ChatGPT 上线前,此类岗位年增速接近 5%;上线后急剧下滑,IT 服务与软件开发行业就业增长几近停滞。


研究者构建「反事实就业曲线」排除宏观干扰后发现,程序员就业仍以每年约 3 个百分点的速度收缩 —— 企业正在主动压缩编程岗位占比,三年累计缺口约达 50 万个岗位


「就业缺口要到 2024 年中期才显著扩大,暗示企业需要足够时间观察模型能力的实际改善,才会将其转化为招聘收缩决策。」


研究同时指出,目前程序员薪资并未出现明显下滑,冲击主要体现在岗位数量层面。作者也审慎强调,50 万缺口不等同于 50 万人失业,AI 之外的税务政策变化亦可能是干扰变量。


( @APPSO)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

作者提示: 个人观点,仅供参考

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    关键词
    // 相关帖子
    Coming soon...
    • 0
    OpenAI 手机曝光:联合联发科/高通,预计 28 年量产丨日报RTRTE_Dev_Comm