苹果重构 Siri:支持屏幕感知与系统级上下文融合,推出独立应用

图片


开发者朋友们大家好:


这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。


本期编辑:@koki、@鲍勃

01 有话题的技术

1、AethexAI 推出 Kora 系列语音小模型:参数 300M 至 1.7B,专为非洲与中东方言定制,完成 300 万美元 Pre-Seed 轮融资

图片


前高盛(Goldman Sachs)产品负责人 Mariama Diallo 与前 Meta 工程师 Ayooluwa Odemuyiwa 联合创立的语音智能体初创公司 AethexAI 宣布完成 300 万美元 Pre-Seed 轮融资,并推出专为非洲和中东市场设计的 Kora 系列语音小模型。该团队通过自研模型与调度层,绕过传统的跨境大模型托管方案,解决了本地网络环境下高延迟、高抖动以及非标准方言识别率低的技术瓶颈,目前日处理通话量已突破 1.7 万次


  • 自研 Kora 系列端到端小模型:模型参数量介于 300M 至 1.7B 之间,不依赖第三方协调工具,通过完全自研的调度层在本地完成处理,大幅降低因跨国数据传输导致的呼叫延迟与网络抖动

  • 本地化多源语料训练:利用合作呼叫中心的匿名录音、通过实体硬盘从非洲各电台收集的音频,以及由本地大学生网络标注的非标准方言和人名数据进行训练,支持针对英语、法语、阿拉伯语的地方方言及混杂语言(Code-switching)的识别。

  • 开放 API 与 SDK:在推出面向企业级客户的平台之外,同步向开发者开放了 API 和 SDK,支持对其本地化语音模型进行直接调用与测试。

  • 高频电信与金融场景适配:目前系统主要应用于债务催收、客户激活以及 KYC 身份验证等高频交互场景,并通过与本地电信运营商建立通道合作,将语音智能体直接接入现有的电话基础设施中


( @TechCrunch)



02 有亮点的产品


1、苹果全面重构对话式 AI 助手 Siri AI:支持屏幕感知与多源上下文融合,深度集成 Dynamic Island

苹果在 WWDC 2026 大会上推出了全面重构的对话式 AI 助手 Siri AI。该系统从传统的单一语音控制工具升级为具备全系统感知能力的 AI 智能体,能够融合实时网络、设备屏幕及用户本地多源数据来执行复杂任务。


  • 多源上下文感知与屏幕信息检索:Siri AI 支持屏幕内容感知(On-screen awareness),能够结合当前屏幕显示内容、历史邮件、日历、联系人等本地多源数据进行跨应用、跨渠道的信息检索与处理

  • UI 重构与 Dynamic Island 交互集成:替换了原有的侧边发光触发效果,Siri AI 深度嵌入 Dynamic Island(灵动岛)。用户可直接下滑灵动岛唤起文本输入界面,其输出结果也从纯语音转为更直观的结构化文本卡片

  • 「Write with Siri」个性化写作生成:深度集成至系统 Mail(邮件)和 Messages(信息)应用中。该功能可分析并模仿用户与特定联系人(如同事或朋友)的过往沟通风格,生成定制化语气和语序的文本草稿。

  • 自定义语音引擎与系统级听写优化:引入全新的语音合成引擎,支持用户自定义 Siri 的语速和表达语气;同时升级了系统级听写功能,提升了对英文拼写、标点符号及大小写的捕捉精准度

  • 多端生态融合与 Spotlight 集成:在 macOS 端,Siri AI 被深度集成至 Spotlight,使其具备直接解答复杂问题与调用本地系统工具的能力;同时支持在 watchOS 端进行直接提问与任务分发


https://www.apple.com/hk/newsroom/2026/06/apple-introduces-siri-ai-a-profoundly-more-capable-and-personal-assistant/


( @TechCrunch)



2、Apple 于 WWDC 2026 推出独立 Siri 应用:支持多模态输入、历史会话自动摘要与跨设备 iCloud 同步

图片


苹果在 WWDC 2026 上发布了全新升级的 AI 版 Siri,并首次为其推出独立的应用程序。该应用改变了以往 Siri 仅作为系统后台唤醒助手的定位,使其转变为一个具备结构化会话管理能力的终端。用户现在可以跨 iOS、macOS 和 iPadOS 统一管理、追溯并以多模态方式与 Siri 进行交互


  • 结构化会话存档与自动摘要:新应用充当用户历史对话的中心仓库,支持类似 ChatGPT 或 Claude 的滚动检索功能;当打开历史会话时,系统将自动生成该次对话的内容摘要,无需用户阅读完整转录文本。

  • 多模态交互接口:Siri 界面升级为多功能控制台,除支持直接通话的语音模式(Voice Mode)外,原生新增文本输入(Text)、文档上传(Document Upload)及图像输入(Image Input)接口

  • 私有化 iCloud 跨设备同步:基于苹果的隐私保护架构,所有 Siri 历史会话数据均通过 iCloud 进行私有同步,确保用户在 iOS、macOS 和 iPadOS 设备间无缝切换并延续对话上下文。


( @Tech Chrunch)



3、苹果更新 Vision Pro 版 Siri:引入悬浮气泡 UI,支持注视免唤醒交互

(@TechCrunch)



4、个人 AI 智能体 Town 获 a16z 领投 5500 万美元 A 轮融资:积累用户私有上下文与主动式工作流生成


个人 AI 智能体初创公司 Town 宣布完成由 a16z 领投的 5500 万美元 A 轮融资。该公司的核心产品是一款能够无缝接入用户现有工作链路的个人 AI 助手,通过持续积累用户的私有上下文数据,变被动的「提示词」交互为主动的工作流推荐与任务执行。


  • 多源工具链跨平台集成:系统可直接运行于桌面及 Web 端,并无缝对接 Email、Calendar、Slack、Google Docs、WhatsApp 等主流协同与通讯软件,无需用户更改既有工作习惯。

  • 主动式工作流生成:摆脱了传统 AI 助手依赖用户手动输入提示词的交互模式,Town 通过行为模式匹配主动向用户推荐并构建定制化工作流程,自动执行起草邮件、自动创建日程等任务。

  • 私有上下文持续累积:通过长期观察用户在工作和生活中的决策、沟通风格及人际关系,系统可自动提炼个性化的非结构化数据,积累深度私有的上下文数据库,并以此作为智能体执行决策的底层基础。

  • 复杂非结构化事务处理:目前已支持运行招聘管道、管理后勤、处理手写拨款申请以及自动生成会议纪要和跟进邮件。

  • 全栈型创始团队背景:联合创始人 Jean-Denis Greze 曾任 Plaid 首席技术官及 Dropbox 工程负责人;Tony 曾任 Google 外部 AI 兼产品负责人、Dropbox 设计负责人。


( @a16z)



5、Shift4 Dine 深度集成 Loman AI 语音智能体:实现 24/7 双向 POS 数据同步与自动接单

图片


餐饮支付技术服务商 Shift4(NYSE: FOUR)宣布与 Loman AI 达成合作,将其 24/7 语音智能体直接集成至 Shift4 Dine POS 平台。该集成旨在通过电话渠道的自动化接单与预约,降低餐厅人工成本并提高订单捕获率。这是继此前 SkyTab 平台集成 Maple 语音 AI 之后,Shift4 进一步通过垂直行业软件层巩固其餐饮统一商务生态的重要动作。


  • 双向 POS 数据流打通:Loman AI 智能体可直接读取 Shift4 Dine 系统中的菜单数据,实时同步价格变更、特价及售罄(86ed)状态;同时将电话捕获的订单与预约信息无缝写入 POS 及 KDS(厨房显示系统),无需人工二次录入。

  • 24/7 电话语音智能体部署:提供全天候电话响应,支持多轮对话完成点单、预约及菜单答疑,旨在提高电话接听率以减少因漏接导致的收入损失。

  • 多语音 AI 路由产品矩阵:继此前将 Maple 语音 AI 集成至旗下 SkyTab 平台后,本次集成 Loman AI 进一步扩大了 Shift4 在电话点单自动化领域的软件覆盖。

  • 高增长财务目标与杠杆风险:Shift4 计划在 2029 年实现 67 亿美元营收(年复合增长率需达 17.2%)和 3.093 亿美元利润,但目前面临收购整合(如 Global Blue 杠杆及过桥融资)的执行风险,亟需通过高毛利的软件服务提升变现率


(@loman.ai、@simplywall)



03 有态度的观点



1、孙正义直言:超级智能有望两年内到来,能自研下一代大模型

软银 CEO 孙正义近日抛出一则重磅预判:超级人工智能的落地时间将大幅提前。他认为,超级人工智能或将在两年内正式到来


他在与 OpenAI 团队深度交流后获悉,AI 自主迭代的闭环已初步形成——现有模型已能独立设计下一代全新模型。


随着迭代进程的推进,AI 的智能水平将呈现指数级增长,最终彻底超越人类的研发能力,实现超级智能的突破。


据悉,孙正义对这一时间窗口的判断持续修正:从最初保守预估的十年,缩短至四年,最终锁定为两年。


这一预判并非空穴来风。OpenAI 已证实,其 GPT-5.3-Codex 模型实现了自我迭代,能够自主完成训练诊断、部署监管、结果评估等研发工作。


竞品厂商 Anthropic 的数据更加直观:目前其平台超过 80% 的代码由 Claude AI 编写,AI 已成为核心研发主力


(@极客公园)


图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

作者提示: 个人观点,仅供参考

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    关键词
    // 相关帖子
    Coming soon...
    • 0
    苹果重构 Siri:支持屏幕感知与系统级上下文融合,推出独立应用RTRTE_Dev_Comm