微软开源 Phi-4 视觉混合推理小模型;Raycast 发布 Glaze,通过对话生成本地应用丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@koki、@瓒an、@鲍勃
01 有话题的技术
1、Raycast 发布 AI 对话构建桌面产品工具 Glaze
Raycast 团队近日发布新产品 Glaze,旨在通过自然语言交互实现桌面级应用的零代码开发。该工具核心解决了传统软件「通用化」导致的效率低下问题,允许用户通过对话式界面快速生成、定制并运行本地应用。
其核心技术特性有:
本地原生运行:生成的应用直接运行于用户本地计算机,支持离线使用及瞬时启动。
深度系统集成:具备传统 Web 应用不具备的底层权限,包括:文件系统访问,全局键盘快捷键,菜单栏集成以及后台守护进程。
迭代式开发:支持通过自然语言对话实时修改 UI 或功能逻辑,实现应用的动态进化。
Glaze 是 Raycast 插件生态的深度进阶版。其逻辑从「在单一容器内运行插件」转向「生成独立、全功能的桌面软件」,利用过去六年在 Raycast 开发中积累的 UI 框架和交互规范,确保生成的应用在无人工编码的情况下保持高性能与高审美一致性。
目前 Raycast 内部团队已利用 Glaze 构建了连接 GitHub 的扩展程序审核流工具,以及多种辅助内部协作的微型工具。
( @Raycast)
2、微软发布 Phi-4-Reasoning-Vision-15B 开源模型,能自主决定何时思考的小型多模态 AI
微软发布了一款 Phi-4-Reasoning-Vision-15B 模型,这是一款视觉推理模型。
它结合了高分辨率视觉感知与选择性、任务感知的推理,使其成为 Phi-4 系列中首个同时实现「看得清楚」和「想得深入」的小语言模型。
传统的视觉模型仅执行被动的感知 —— 识别图像中「有什么」。Phi-4-Reasoning-Vision-15B 更进一步,执行结构化、多步骤的推理:理解图像中的视觉结构,将其与文本上下文连接,并得出可操作的结论。这使开发者能够构建从图表分析到 GUI 自动化的智能应用。
该模型最关键的设计特征是其混合推理行为。它可以根据提示在「推理模式」和「非推理模式」之间切换:
当需要深度推理时(例如数学问题、逻辑分析)→ 启用多步推理链
当快速感知足够时(例如,OCR、元素定位)→ 直接输出以降低延迟
该模型最重要的应用领域之一,就是搭配计算机智能体使用。模型接收一个屏幕截图和自然语言指令后,可输出目标 UI 元素的标准化边界框坐标,其他智能体模型可以执行点击、滚动和其他交互。
以下是 Phi-4-Reasoning-Vision-15B 与其他模型在关键任务上的性能对比:
推理模式
非推理模式
(@极客公园)
02 有亮点的产品
1、AI 初创 Flowith 完成千万美元融资
AI 初创 Flowith 近期宣布,完成千万美元种子轮和种子+轮融资。据悉,种子轮为祥峰投资(Vertex Ventures)等机构,种子+轮为红杉中国种子基金、江远投资(LongRiver)等多家顶尖机构联合领投,融资资金将主要用于研发以及全球化市场拓展。
在生成式 AI 从语言范式走向行动范式的浪潮中,行业正经历从被动响应的 LLM 进化为具备自我规划、主动执行能力的系统(Agentic AI)。Flowith 认为,传统的对话框形态已无法承载复杂的逻辑闭环,未来的核心竞争力在于如何让模型真正在端侧具备「学习」、「执行」与「进化」的能力。
作为 AI 交互领域和 Agent 的领先探索者,Flowith 一经推出就以创新性的交互方式获取了大量关注,并领先推出了首个通用型创作智能体框架 Oracle、AI Context 知识花园、无限步骤智能体 Agent Neo、首个 OS Agent - FlowithOS 等业界前沿创新产品与功能、在海内外获得了数百万深度用户。
在 2026,Openclaw 已经证明系统 Agent 的潜力,作为 OS Agent 的领先探路者,Flowith 致力于打造一个以「行动」为内核、具备更强能力和更全面工具调用性的 Agent 系统。它让 Agent 可以更进一步地融入用户的工作和生活,在用户熟悉的环境中快速接手那些繁杂的任务,彻底打破 AI 与真实物理世界/数字世界之间的执行壁垒。
祥峰投资相关投资负责人表示: 「我们正处于从感知智能向行动智能跨越的拐点。Flowith 团队在 Agentic OS 方向的深刻洞察和极强的工程执行力,使其成为了赛道中极具潜力的基础设施提供商。我们期待 Flowith 能为 AI 生态提供更稳健的进化引擎。」
( @Z Potentials)
2、华为拍摄款 AI 眼镜或 4 月份发布,搭载海思芯片
华为新款 AI 眼镜预计将于今年 4 月正式发布。届时,该产品有望与备受期待的华为 Pura90 系列手机及第二代阔折叠屏手机、及诸多新品同台亮相。
该款 AI 眼镜支持拍照功能,搭载鸿蒙系统,支持跨端协同,同传翻译,有流光银、钛银灰、摩登黑三个颜色。今年春节期间,华为终端 BG 董事长余承东曾佩戴该尚未发布的新品,便引发了人们对于该产品即将发布的猜想。
据悉,该款华为 AI 眼镜目前已经在公司内部进行内测。由于华为不能采用高通 AR1 的芯片,大概率采用的是华为自研的海思麒麟芯片,搭载的是鸿蒙 OS,可以实现和华为手机、华为车机的跨端联动,更好地发挥其独特的生态优势。目前华为手机、搭载华为鸿蒙座舱的新能源汽车已有很大的出货量,如果能够实现很好的跨端协同,对于华为的用户而言将会非常有吸引力。
( @XR Vision)
3、捏 Ta 完成超千万美金 PreA+ 轮融资,定义 AI 时代世界创作的基础设施
近日,AI 原生社区捏 Ta 宣布完成超千万美金的 Pre A+ 轮融资,由九坤创投领投,BV 百度风投跟投,源码资本、奇绩创坛等老股东超额跟进。这一轮融资将主要用于三个方向:招募面向全球拓展的顶尖人才,技术研发投入,以及新产品线拓展。
上线于 2024 年 3 月,捏 Ta 最初是一个专注于 AI 角色创作的平台。用户可以用自然语言创建虚拟角色,围绕角色创作图像、漫画、短片和可交互的玩法等。
目前,平台已积累超 1200 万用户,活跃用户日均互动时长超过 110 分钟。在平台上,创作者们构造了 584 万个虚拟角色,上线了 400+ 包括场景、规则的虚拟世界和社团空间。商业化层面,捏 Ta 在国内的收入已覆盖获客与算力成本,实现单位经济模型打正。
随着 AI 技术迭代、用户积累和玩法的深入,主题也逐渐扩充到包括像敦煌、非遗等传统文化,上万人在同一个世界观中统一风格参与创作,捏 Ta 平台正在从「创作角色」升级为「构建世界」。
捏 Ta 正在面向全球推出升级版创作工具,目标人群覆盖 Comic-Con、AO3 等全球泛创作社区。公司目前重点招募具有全球视野的产品设计师和文化策略人才。虚构世界的需求是全球性的,从日本二次元文化到欧美奇幻文化,虚拟世界创作在世界各地有着大量年轻、原生、热情的创作者。
(@极客公园)
03 有态度的观点
1、吴恩达:AGI 仍遥远
近日,人工智能学者吴恩达(Andrew Ng)在「This Is The World」专访中,指出 AGI(通用人工智能)已被过度炒作并沦为营销术语,且断言 2026 年内行业无法实现真正的 AGI。
采访中,吴恩达批评当前部分企业为公关或融资目的频繁篡改并降低 AGI 的标准。
他提出了一项全新的「图灵 AGI 测试」:若 AI 能够像熟练的人类远程工作者一样,在连续多天的体验中独立完成具有经济价值的工作任务,才符合社会公众对 AGI 的合理预期。
吴恩达表示,距离实现该目标仍有数十年距离,且随着公开互联网数据接近枯竭,单纯依赖扩大参数规模来提升智能的路径正面临挑战。
针对后续技术演进方向,吴恩达指出 2026 年及以后的核心商业价值将集中在「智能体工作流」。他认为,相比于盲目追求全知全能的单体大模型,通过赋予现有大型语言模型工具调用能力与护栏,让其分步骤处理法律合规、医疗辅助及客户服务等垂直领域任务,将产生更为确定的经济效益。
(@APPSO)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
作者提示: 个人观点,仅供参考