蚂蚁「灵光圈」:对话生成多模态应用,支持调用移动端原生硬件

开发者朋友们大家好:


这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@鲍勃


01 有话题的技术


1、蚂蚁灵光发布「灵光圈」:通过对话生成调用移动端原生硬件(如震动马达、LBS、传感器)的多模态应用


蚂蚁灵光发布社区产品「灵光圈」并升级「闪应用」架构,确立了以自然语言为核心的 「Wish Coding」 交互范式。该更新支持通过对话在 30 秒内生成可直接调用移动端原生硬件(如震动马达、LBS、传感器)的多模态应用,并将传统代码级的 Fork 协作提升为基于「结构化意图」的语义级迭代。


  • 原生多模态交互与硬件 API 调用:不同于受限于浏览器沙盒的 Web Coding 工具,闪应用运行于端侧原生环境,支持通过 LLM 指令直接调用震动反馈、陀螺仪、摄像头识物、精确 LBS 等硬件能力,使生成物从「信息展示工具」演进为「感知交互工具」。

  • Wish Coding 交互范式:剥离 IDE、代码仓库与环境依赖,用户仅需提供模糊意图,Agent 自动完成从语义理解到功能模块级联、数据结构定义及 UI 渲染的全链路构建,生成耗时约 30 秒。

  • 意图级 Fork 与结构化语义编辑:灵光圈支持对他人应用进行「改一下(Fork)」的操作。其底层并非复制源码,而是传递「结构化意图表示层」。系统通过理解功能模块间的级联影响,支持用户以自然语言在原应用基础上进行精确的功能增删与场景迁移

  • 内置共享数据层与实时部署:应用生成即完成云端部署,平台默认集成多人协同能力。生成的工具(如实时投票器)内置共享数据接口,支持多端数据实时同步,无需手动配置服务器或数据库。


(@极客公园)



2、OpenAICodex 上线 Chronicle:捕获用户屏幕上下文以构建记忆

OpenAI 为其编程工具 Codex 推出了一项名为 Chronicle 的实验性新功能。作为对上周发布的 Memories 功能的扩展,Chronicle 能够通过捕获和分析用户的近期屏幕上下文来构建记忆,从而减少用户在与 Codex 交互时重复陈述背景信息的需求。


该功能目前以选择性加入的研究预览版形式提供给 macOS 平台上的 ChatGPT Pro 订阅用户,暂不支持欧盟、英国和瑞士地区。要启用此功能,用户需在 Codex 应用的设置中开启 Memories 选项及 Chronicle,并授予 macOS 的屏幕录制和辅助功能权限。


官方表示,该技术通过在后台运行沙盒化的 Agent 来处理屏幕截图、OCR 文本和时间信息等内容,帮助 Codex 识别用户的工作流及所需工具。然而,官方也明确警告,启用 Chronicle 会迅速消耗速率限制,增加提示注入攻击的风险,且生成的记忆会以未加密的 Markdown 文件形式存储在本地设备上。


(@橘鸦 Juya,@OpenAIdevs@X)


3、Sierra 发布 μ-Bench:针对 8kHz 真实通话场景的多语言 ASR 基准,引入 UER 评估指标

对话式 AI 企业 Sierra 开源了 ASR(自动语音识别)转录基准 μ-Bench,旨在填补多语言真实电话场景评估的空白。该基准基于真实客服通话数据,通过引入新的评估指标 UER,揭示了主流 ASR 模型在处理非英语及低采样率音频时的性能鸿沟,为语音智能体的生产环境部署提供量化依据


  • 真实电话场景数据集:包含 4,270 条经过人工标注的语句,提取自 250 场真实的 8 kHz 单声道电话通话,涵盖英语、西班牙语、土耳其语、越南语和普通话,对比传统 ASR 基准更强调低信噪比和窄带环境。

  • 引入 UER(Utterance Error Rate,语句错误率):不同于传统 WER(词错误率)将语气词丢失与关键信息(如电话号码)错误同等对待,UER 专注于识别导致语义改变的转录错误,更能反映 ASR 质量对下游 LLM 逻辑判断的影响。

  • 多维度性能权衡:横向对比显示 Google Chirp-3 在准确率上占优但响应速度最慢;Deepgram Nova-3 的 p50 延迟比前者快约 8 倍,但在多语言准确性上表现较弱。

  • 语言间表现高度失衡:测试指出普通话转录的错误率可能比英语高出 5 倍,且越南语在不同供应商间的表现波动极大,证明了单一模型无法在全语种生产环境中达到最优


( @sierra)


02 有亮点的产品


1、首创「玩偶+主机」模式,多智能体儿童 AI 玩具品牌灵机天赐获数千万元融资

图片


图片


北京灵机天赐科技有限责任公司(下称「灵机天赐」)于过去一年内完成两轮数千万元人民币融资,天使轮由德联资本领投,小恐龙基金和瑞昇基金跟投,Pre-A 轮由 Implic Capital 领投,两轮融资均由探奇资本担任公司独家财务顾问。


灵机天赐 CEO 杨冰表示,「AI 时代,让孩子直接和一个虚拟人物聊天,这个产品定义其实很难成立。孩子无法快速和一个纯虚拟角色建立真实的物理连接。只有把世界观、人设和场景都构建出来,他们才会有交流的可能性。」


为了实现这种「可信的互动」,灵机天赐旗下品牌「Jollybubu」首创了「主机+玩偶」的智能体硬件交互系统


每一个 Jolly 实体玩偶都对应独立的智能体,拥有各自的世界观、知识库和人格模型。当孩子将玩偶放置在主机底座上,即可激活对应角色的故事内容,并随时打断、提问,与玩偶进行角色化的互动对话。与此同时,主机 bubu 更像整个系统的中枢,持续沉淀孩子的提问、探索路径与互动偏好,进而实现个性化引导。


基于内置的世界观、知识库,每个实体玩偶都代表了一种思维方式和学科方向,杨冰介绍称「我们发现,当孩子提出一个问题,比如『天为什么是蓝色』时,并不一定想要一个科学的答案,所以我们的玩偶也会根据自己的世界观和上下文做出各种不同的回答,可能是艺术的、可能是文学的、也可能是科学的。」当孩子使用不同的玩偶提问、互动,本身也是在不断拓展自己的认知路径和表达方式


为实现这一效果,技术层面,每一个玩偶都是一个独立的智能体,由语音识别(ASR)、语音合成(TTS)、角色音色系统与大模型能力共同支撑。由于一次互动中可能涉及多个角色的连续响应与协同,后台系统需要同时处理多智能体之间的低延迟联动,并保持不同角色稳定输出各自鲜明的人格特征。


商业模式上,灵机天赐选择以硬件销售为主,不以订阅付费作为核心门槛。相较于持续订阅,团队更看好通过新玩偶、新角色和新内容的持续扩展,建立复购机制。


(@硬氪)



2、阶跃星辰联合极氪 8X 首发量产超级 Eva:基于 Step 3.5 Flash 实现 350TPS 高频实时交互与多模态意图重构

阶跃星辰联合吉利、千里科技量产整车智能体「超级 Eva」。该系统通过 Step 系列模型矩阵打破传统「指令式」交互,将车载 AI 从单纯的语音助手升级为具备情绪识别、长短期记忆与多模态感知能力的实时交互终端,实现从响应单条命令向自主执行复杂目标的范式演进。


  • 350TPS 极速推理响应:依托 Step 3.5 Flash 推理引擎,系统推理速度最高达 350TPS,大幅降低多轮对话延迟,确保在复杂交互任务中保持毫秒级实时反馈。

  • 端到端语音情绪理解:接入阶跃语音大模型,具备语义重构与情绪识别能力,可识别用户语气的紧迫感或松弛感,并从机械式功能播报转向自然语言交互。

  • 256k Context Window 持续交互记忆:支持超长上下文处理,使智能体能够维持长周期的对话连续性,并基于历史交互数据记忆用户偏好,支持跨场景的多轮追问。

  • 多模态感知交互闭环:通过视觉模型与语言模型协同,系统可实时识别车外物理环境(如车位状态、路况变化),并将感知信息即时反馈至对话逻辑中,实现「感知-理解-表达」的闭环。

  • 目标驱动的任务编排:支持非结构化目标输入(Declarative Interaction),自动将模糊意图拆解为多步逻辑链,并调度整车系统能力完成导航、泊车、服务预定等协同动作。


(@雷锋网)

3、NovaVoice 发布:集成上下文记忆与跨应用执行的桌面级语音智能体


图片


NovaVoice 推出一款定位为「语音中枢」的桌面端生产力工具。通过整合 ASR(自动语音识别)、上下文语义理解与系统级指令调用,该工具实现了从口述意图到跨应用文本输出及自动化动作执行的直接转化。


其目标用户是创始人、运营、销售、知识工作者和重度键盘用户;痛点是打字慢、查资料慢、跨应用操作碎片化。NovaVoice 要解决的是「如何把说话直接变成可执行的工作输出」。它更像「会记住你工作细节的语音副驾」:你说出需求,它直接帮你写、帮你找、帮你做,尤其适合需要保持心流、又不想一直敲键盘的人。

核心功能与差异化优势:


  • 高速度上下文写作:口述后自动转成符合场景的文本格式,适配邮件、笔记、Markdown 等,并保持上下文语气。

  • 热键即问即答:按热键就能问任何问题,无需切浏览器搜索,适合临时查询和脑暴。

  • 跨应用语音执行:可通过语音打开应用、草拟消息、插入联系人/地址/链接,并对当前桌面执行动作。

  • 长期记忆:记住常用联系人、地址和链接,减少重复输入,像一个桌面级个人助理


网站链接:

https://novavoice.app/


( @Z Potentials)



03 有态度的观点

1、游戏设备 Playdate:AI 写的文案、画的图、作的曲的游戏一律不收

图片


Panic 宣布,旗下 Playdate 游戏商店 Catalog 将不再接受使用生成式 AI 制作美术、音频、音乐、文字或对话内容的游戏作品,第三季游戏合集亦全面禁止以任何形式使用生成式 AI 开发的作品。


根据官方 AI 使用声明,禁令涵盖 ChatGPT、DeepSeek、Google Gemini 等大语言模型,Stable Diffusion、DALL-E、Midjourney 等图像生成模型,以及 MuseNet、Suno、Udio 等音频生成模型


但编程环节使用 AI 辅助工具的作品暂获豁免,平台将对此类作品进行标注并注明具体使用程度,以便玩家自主决定是否支持


此次政策调整源于去年 6 月模拟赛车游戏《Wheelsprung》的争议——该游戏入选第二季合集后被发现使用了 GitHub Copilot 与 ChatGPT 辅助开发。


图片


Panic 联合创始人 Cabel Sasser 在接受采访时坦承:「我们当时完全没有预料到开发者会使用大语言模型,回头来看过于天真,我们对此承担全部责任。」


(@APPSO)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

作者提示:个人观点,仅供参考

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    关键词
    // 相关帖子
    Coming soon...
    • 0
    蚂蚁「灵光圈」:对话生成多模态应用,支持调用移动端原生硬件RTRTE_Dev_Comm