Claude Code 发布蓝牙 API,允许第三方硬件监听特定事件
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@koki、@鲍勃
01 有话题的技术
1、腾讯发布并开源混元世界模型 HY-World 2.0
腾讯混元团队日前正式发布并开源了多模态世界模型 HY-World 2.0。该模型支持通过文本、图像和视频等多模态输入,自动生成、重建并模拟可交互的完整 3D 世界。
与以往仅生成像素级视频的模型不同,HY-World 2.0 直接输出 Mesh、3DGS 和点云等真正可编辑且持久化的 3D 资产,能够无缝导入 Unity、Unreal Engine 等主流游戏引擎进行二次开发。
其不仅原生具备 3D 一致性,还内置了支持物理碰撞和物理感知移动的交互式角色探索模式。
目前,官方已在 GitHub 和 Hugging Face 等平台开源了技术报告、WorldMirror 2.0 的推理代码与模型权重,其余核心模块代码及权重也即将陆续释出。
https://github.com/Tencent-Hunyuan/HY-World-2.0
https://huggingface.co/tencent/HY-World-2.0
(@橘鸦 Juya)
2、OpenAI 发布 Codex 更新:集成 gpt-image-1.5,支持视觉驱动的背景计算机操控
OpenAI 宣布 Codex 完成多模态能力重构,从单一的代码文本生成演进为「视觉-操作」闭环系统。新版本通过集成 gpt-image-1.5 模型与计算机操控(Computer Use)技术,使智能体能够感知 UI 像素、自主跨应用执行任务,并直接在开发工作流中生成与迭代视觉资产。
像素级背景计算机操控(Background Computer Use):基于多模态视觉感知,Codex 能够识别屏幕元素并驱动独立光标进行点击与输入。支持在 macOS 背景环境中多智能体并行操作,无需 API 即可通过视觉反馈完成前端调试、应用测试及复杂 UI 交互。
gpt-image-1.5 原生集成:Codex 现支持在代码编辑器内直接调用图像模型。开发者可结合代码逻辑与屏幕截图,生成并迭代产品原型图、前端视觉组件及游戏素材,实现从代码到视觉资产的同环境转换。
多模态交互浏览器与富媒体预览:内置浏览器支持开发者在页面直接标注(commenting)以提供视觉指令;侧边栏新增对 PDF、电子表格、幻灯片及文档的深度解析与预览,增强了非文本类工程文档的上下文提取能力。
长效记忆(Memory)与多模态自动化:支持跨会话保留视觉偏好与操作修正记录。智能体可根据 Google Docs 评论、Slack 消息及 Notion 截图的多维上下文,自动规划并执行跨度数周的长周期开发任务。
MCP 插件体系扩展:新增 90 多个插件支持,通过模型上下文协议(MCP)整合 Atlassian Rovo、CircleCI、GitLab 等工具,使智能体能够在视觉操作的同时,通过标准化接口获取深度技术上下文。
参考链接:
https://openai.com/index/codex-for-almost-everything/
( @OpenAI)
3、OpenMOSS 开源音频统一理解模型 MOSS-Audio
OpenMOSS 团队正式开源 MOSS-Audio 音频统一理解模型。该模型通过模块化架构整合了语音识别、环境声感知、音乐分析及复杂音频推理能力,实现了极高精度的词级/句级时间戳定位,在多项音频理解基准测试中以 4B/8B 参数规模超越了更大尺寸的开源及闭源模型。
DeepStack 跨层特征注入机制:不同于传统仅提取编码器顶层特征的方案,MOSS-Audio 选取编码器早期和中间层特征,通过独立投影注入 LLM 前几层。该架构有效保留了韵律、音色、瞬态事件及局部时频结构等底层声学细节。
显式时间感知表示(Time Marker):在预训练阶段按固定时间间隔插入显式时间标记,使模型在统一文本生成框架下具备细粒度时间定位能力。其在 AISHELL-1 上的 AAS 指标(35.77)相比 Qwen3-Omni 和 Gemini-3.1-Pro 实现了数量级领先。
13 维度细粒度语音描述能力:支持对性别、年龄、口音、音高、音量、语速、音色质感、情绪及个性特征等 13 个维度进行结构化分析,MOSS-Audio-8B-Instruct 在综合评分中位列 SOTA。
思维链(CoT)与推理增强:MOSS-Audio-8B-Thinking 版本通过 CoT 训练与强化学习,支持对复杂音频内容进行多跳推理,其通用音频理解平均准确率达到 71.08,超越了部分 30B+ 规模的开源模型。
通用音频描述 Demo:
<think>
音档内容是一位男性说话者,语气带有自信和些许夸耀。说话者透过一连串反问句来强调自己的经历与能力,句末常带有上扬的语调,例如「你干过吗?」. 语速整体中等偏快,尤其在列举成就时更为明显。内容围绕说话者声称自己完成了许多令人惊叹或不寻常的事情,例如跳过楼、与坦克近距离接触(被坦克压过)、野外生存、吃遍各种蚯蚓、开飞机、坦克漂移,以及完成两项电影史上的首次活动(《战狼 1》、《战狼 2》)。说话者在[00:08]处有轻微的口腔音。最后以「我觉得这是我最大的成就」作结,语气显得相当肯定。整体语篇结构是列举式陈述,透过对比来突显自身与众不同之处。音档中没有明显的背景噪音或其他说话者。说话者在[00:00]-[00:06]、[00:07]-[00:13]、[00:15]-[00:20]及[00:23]-[00:29]进行了多次提问和陈述,其间穿插了短暂停顿,如[00:06]和[00:13]的停顿。这些停顿有助于听者消化信息,并在说话者转换话题或强调下一点之前制造悬念。例如,在[00:25]提到「中国电影人之前没人干的事儿」时,语气略带自豪。最后的陈述语气坚定。
</think>
说话者以一连串充满自信的反问句开场,列举了自己多项惊人的个人经历,包括完成电影史上的重要拍摄以及多项常人难以企及的举动。其语气坚定,句末语调上扬,强调个人成就的独特性,并在结尾处以肯定的语气总结,认为这些是他的最大成就。
GitHub:
https://github.com/OpenMOSS/MOSS-Audio
HuggingFace:
https://huggingface.co/collections/OpenMOSS-Team/moss-audio
(@模思智能)
02 有亮点的产品
1、Claude 桌面端发布 Bluetooth API:支持硬件设备实时监听智能体状态
Anthropic 在 Claude 桌面应用(Cowork 与 Code 模式)中上线原生 Bluetooth API。该接口允许开发者构建外部硬件设备,通过蓝牙实时同步 Claude 的内部运行状态,实现 LLM 软件与物理世界的异步交互。
支持跨模式硬件联动:Bluetooth API 覆盖 Claude 桌面端的 Cowork 与 Code 核心模式,允许第三方硬件作为 Claude 的物理外设运行。
状态触发机制:硬件设备可实时监听 Claude 的特定事件,例如当智能体(agent)因安全策略挂起并「等待用户操作权限」时,触发物理信号。
面向 Maker 生态的端到端交互:开发者可利用该 API 开发专用通知器、物理控制台或嵌入式交互设备(如桌面宠物),通过物理震动、光效或音频解决用户在多任务办公时错过 AI 授权请求的痛点。
https://github.com/anthropics/claude-desktop-buddy
(@felixrieseberg@X)
2、Phonely 获 A 轮融资:通过自研专用小模型集群架构实现百万级语音 AI 通话优化
语音 AI 初创公司 Phonely (YC S24) 宣布完成由 Base10 领投的 A 轮融资。该公司弃用通用大模型方案,通过自研的专用小模型集群技术栈,为保险、呼叫中心等行业提供高并发、低延迟的入站通话智能体服务,旨在通过数据驱动的脚本微调提升电话业务转化率。
多专用小模型(Specialized Small Models)架构:针对「信息提取」、「潜在客户识别」等特定子任务部署独立的小型化模型,替代单一大型 LLM。该方案在降低推理成本的同时,显著解决了语音交互中的高延迟问题。
语音转化率优化(CRO for Voice):引入类似 Web 端的转化率优化机制,支持企业根据统计反馈微调 AI 提问逻辑。数据显示,通过优化特定提问环节,业务结果产出可提升 5%。
规模化入站(Inbound)处理:目前每月处理数百万次跨行业通话,核心应用场景集中在广告引流后的入站咨询与初步筛选,目标在今年年底实现通话者近乎无感知的 AI 交互体验。
端到端工程化优化:创始人表示延迟(Latency)已不再是技术瓶颈,当前研发重点已转向对话的逻辑准确性与「非判断性」交互体验,以消除用户面对人工客服时的心理压力。
(@dessaigne@X)
3、Speechmatics 发布语音生物标记平台:15 秒采样识别 30 余种健康信号,包括 2 型糖尿病、精神压力、疲劳及抑郁症状
Speechmatics 与 thymia 宣布达成深度合作,推出集成医疗级语音转文字(STT)与临床级语音生物标记智能的联合平台。该系统能够从 15 秒的自然语音中实时提取并分析 30 多种健康指标,包括 2 型糖尿病、精神压力、疲劳及抑郁症状。
15 秒采样与实时推断:系统以 15 秒为间隔处理音频流,通过分析声学(Acoustic)与语言(Linguistic)模式中的神经学特征提取健康信号,在提供标准转录的同时实时返回诊断参考。
高鲁棒性多模态数据集:模型基于超过 75,000 个独特声音的动态测量数据(跨越 6 年研发)以及数百万小时的多口音语音数据训练,确保非母语及带口音语音下的识别准确率维持在 85% 以上。
无硬件依赖的 API 集成:采用单一 API 接口提供服务,支持云端、本地及设备端部署;无需传感器或其他专用硬件,可直接嵌入现有语音智能体、呼叫中心系统或车载终端。
( @globenewswire)
4、Eigen 完成 1500 万美元种子轮融资:Benchmark 领投,主攻「共时性」社交智能体
AI 初创公司 Eigen 宣布完成 1500 万美元种子轮融资,由 Benchmark 领投,Pinterest 联合创始人 Ben Silbermann 及 Meta 前高管 David Singleton 参投。该公司旨在开发一种「亲社会(Pro-social)」的 AI 架构,核心逻辑是从「个人 AI 伴侣」转向创造人类用户之间的「共享、共时性体验」。
「互为好友」式产品架构:不同于 Replika 或 Character.ai 等主打 1 对 1 私密陪伴的路径,Eigen 试图构建一种作为「共同好友」存在的智能体,旨在增强现实社交关系而非替代社交,通过 AI 媒介实现多用户间的同步交互。
「U 型」团队组织模式:公司跳过中层管理岗位,由资深技术专家直接与年轻创意人才协作。团队成员包含多名初创公司创始人及专业编剧,强调工程开发与叙事逻辑的深度耦合。
对抗超个性化(Hyper-personalization)孤岛:Scherer 提出 AI 不应仅为个人定制「完美世界」,而应构建群体共享的数字环境。其技术逻辑侧重于通过 AI 智能体协调多方上下文,缓解数字化进程中个人社交原子化趋势。
高估值市场切入:公司目标指向 2035 年预计达 5524.9 亿美元的全球 AI 伴侣市场。种子资金将主要用于组建核心工程团队,目前产品细节仍处于隐形阶段。
( @fortune)
03 有态度的观点
1、黄仁勋:若 DeepSeek 率先在华为平台上出现,「对美国将是可怕的结果」
英伟达 CEO 黄仁勋近日在接受科技播客主持人 Dwarkesh Patel 专访时,就美国对华 AI 芯片出口管制政策发出警告。
针对 Patel「向中国出售英伟达芯片可能助其训练具备网络攻击能力的 AI 模型」这一质疑,黄仁勋直言「你的前提就是错的」。
他指出,Anthropic 旗下 Claude 模型是在规模相当普通的算力上训练完成的,而此类算力在中国「大量可得」;中国拥有全球约 50% 的顶尖 AI 研究人员,算力限制反而倒逼出「极其聪明的算法」,DeepSeek 的出现「绝非无关紧要的进步」。
他随即抛出核心警告:「如果 DeepSeek 第一款在华为上发布,那对美国将是一个可怕的结果。」
在他看来,极端的出口管制会形成反效果——迫使中国顶尖开源模型专门针对华为等本土硬件深度优化,一旦这些模型在华为架构上跑得最好,英伟达平台的全球吸引力将被直接削弱。
如果我们被迫离开中国,这会加速他们的芯片产业发展,并迫使他们所有的 AI 生态系统专注于自己的内部架构。
黄仁勋指出,随着中国 AI 模型以开放标准向全球南方国家扩散,美国可能在长期技术标准竞争中陷入被动,而这一切的根源,正是主动放弃全球第二大市场的战略失误。
( @APPSO)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
作者提示: 个人观点,仅供参考