语音 AI 公司 Sesame 再获 2.5 亿美元融资，开放 iOS 版本申请；清华智谱推出 Glyph：视觉-文本压缩丨日报

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@Jerry fong，@鲍勃

01有话题的技术

1、KREA AI 开源 Krea Realtime：14B 模型刷新长视频生成性能

KREA AI 开源 Krea Realtime。这个 14B 自回归模型比任何开源的同类模型都要大 10 倍，并且可以在单个 B200 上以 11 帧每秒的速度生成长视频。

Krea Realtime 是通过 Self-Forcing 从 Wan 2.1 14B 文本到视频模型中提炼出来的。

使用单个 NVIDIA B200 GPU，通过 4 次推理步骤，实现 11fps 的文本到视频推理速度。

2、清华大学 & 智谱 AI 联手推出「Glyph」：视觉-文本压缩，突破 LLM 上下文瓶颈

清华大学和智谱 AI 推出「Glyph」：视觉-文本压缩扩展上下文窗口框架，解决 LLM 在处理超长上下文时的计算和内存瓶颈。传统方法依赖 tokens 扩展，导致成本急剧上升，而 Glyph 通过将长文本渲染为紧凑图像，并利用视觉-语言模型（VLM）进行处理，实现 3–4 倍的 tokens 压缩，同时保留核心语义信息。这种「视觉-文本压缩」范式提供了一种高效替代方案，避免了直接扩展模型上下文的复杂性。

核心问题：如何在不牺牲性能的前提下，扩展 LLM 的有效上下文长度？
方法论亮点：· 持续预训练：在多样化渲染的长文本数据上训练 VLM（如基于 GLM-4.1V-9B 的 Glyph-Base），包括 OCR 重构、交织语言建模和生成任务，确保视觉模态捕捉文本语义。 · LLM 驱动的遗传搜索：使用遗传算法自动优化渲染配置 θ。从初始种群采样，迭代评估准确率与压缩比（ρ = |C| / 视觉 token 数），LLM 指导变异与交叉，收敛于最佳参数（如 DPI 72、等宽字体），平衡密度与可读性。 · 后训练精炼：采用监督微调（SFT）和强化学习（RL，使用 GRPO 算法），辅以 OCR 对齐任务，提升低级文本保真度。
实验与结果：· 在 LongBench、MRCR 和 Ruler 等长上下文基准上，Glyph 以 3–4 倍压缩（平均 3.3 倍，极端达 8 倍）匹配 Qwen3-8B（准确率 50.56% vs. 47.46%）的表现，甚至在 HotpotQA 等子任务中略胜一筹。 · 同时将 128K 上下文 VLM 扩展至 1M token 任务。 · 效率方面，预填充和解码速度提升 4 倍，SFT 训练加速 2 倍，KV 缓存节省 67%。 · 在多模态基准 MMLongBench-Doc 上，Glyph 提升了文档 QA 的 F1 分数 12 个百分点，展示跨模态泛化潜力。
创新与局限：· Glyph 的创新点在于将视觉 token 视为「语义载体」，与注意力机制正交；遗传搜索自动化了渲染优化，避免手动调参。 · 局限包括对渲染参数敏感（如低 DPI 可能导致 OCR 错误，尤其在稀有序列如 UUID 上），以及基准任务偏向理解而非智能体式推理，VLM 泛化不如纯文本模型强劲。

（@shao__meng@X）

02有亮点的产品

1、Sesame获红杉资本领投、Spark 参投的 2.5 亿美元 B 轮融资；iOS beta 版本开放申请

由 Oculus 联合创始人创立的 AI 公司「Sesame」宣布完成由红杉资本 (Sequoia Capital) 和 Spark 共同领投的 2.5 亿美元 B 轮融资。该公司正致力于构建一个极具表现力和情感的语音 AI 智能体，并计划推出配套的 AI 眼镜。此次融资为「Sesame」提供了更多资源，以加速其在具备搜索、文本处理及思考能力的 iOS 应用以及未来的硬件产品上的开发。这预示着 AI 交互的下一个方向：从效率工具转向能够与人建立情感连接的日常伴侣。

关键亮点

超越传统 TTS 的语音模型: 「Sesame」的技术并非简单地将 LLM 的文本输出转换为音频。它能直接生成带有节奏、情感和表现力的语音，旨在创造出如同与真人对话般的流畅体验，而非机械的指令回应。
软硬件一体化生态: 除了 AI 智能体本身，「Sesame」正在自研一款轻量化、时尚的 AI 眼镜。其目标是打造一个全天候、具备环境感知能力的「环境计算」入口，让 AI 真正无缝融入用户的日常生活。
Oculus 创始团队再次联手: 创始人兼 CEO Brendan Iribe 和首席产品官 Nate Mitchell 均为 VR 公司 Oculus 的联合创始人。团队在打造从原型到全球分销的全栈产品方面拥有深厚经验，这为硬件的成功落地提供了保障。
早期 Demo 验证成功: 今年 2 月发布的早期 Demo（包含「Maya」和「Miles」两个角色），在最初几周内就吸引了超过 100 万用户，产生了超过 500 万分钟的对话，初步验证了其「拟人化」对话体验的巨大吸引力。

2、桥水基金创始人 Ray Dalio 推出「Digital Ray」：复制特定个体的思维、价值观、视角、偏好和反思能力

桥水基金创始人 Ray Dalio 近日详细阐述并推出了其个人 AI 克隆「Digital Ray」。他强调 AI 克隆与通用 LLM 和 AI 智能体的本质区别，即深度融合个体价值观、原则和偏好。

「AI 克隆」的独特定义： Dalio 将 AI 克隆定义为复制特定个体的思维、价值观、视角、偏好和反思能力，这与任务导向的 AI 智能体及通用 LLM 的泛化特性截然不同，它旨在像本人一样思考。
基于海量策展式训练： Digital Ray 的核心在于其长达 40 余年的「策展式训练」，基于 Dalio 记录的原则、决策规则、问答及反馈，从早期的计算机决策系统逐步演化而来，确保了其回答与本人高度一致。
Digital Ray 现状与性能：目前 V1 版本已进行两年测试，在生活和工作相关对话中，与 Dalio 本人对话的质量相似度高达 95%，市场、投资、经济、政治方面达到 80%。该 AI 克隆无幻觉，并支持文本和语音交互。
人类与 AI 克隆的优势互补： Dalio 认为 AI 在处理复杂性、自动化和瞬时决策方面超越人类，而人类在想象力、常识、同理心和开箱即用思维上独具优势。AI 克隆通过融合二者，实现更卓越的决策。

参与 beta 版：

https://www.principles.com/AIBeta-signup

（@RayDalio@X）

03Real-Time AI demo

1、AI Splat WebAR：照片即刻生成

来自 @XRarchitect：World Labs 带来突破性实时 WebAR 体验——仅 5MB 高斯喷溅，从照片轻松生成沉浸场景。

04有态度的观点

1、医疗科技公司 CEO：AI 在医疗中的角色是辅助而非替代

美国医疗科技公司 Zocdoc 创始人兼 CEO Oliver Kharraz 在日前于纽约举行的 TechFutures 大会上表示，随着人工智能在医疗领域的应用不断深入，「谷歌医生将会被 AI 医生取代」。

他指出，越来越多患者开始通过 AI 聊天机器人寻求健康建议，这一趋势既带来便利，也伴随潜在风险。

Kharraz 强调，Zocdoc 的 AI 助手「Zo」目前仅用于预约和客服场景，公司不会让 AI 提供直接的医疗诊断或处方建议。

同时，他透露 Zocdoc 已经在电话预约环节引入 AI 技术，能够自动完成挂号、改期等基础操作，从而减少人工客服的负担。

但对于复杂问题，系统会自动转接至人工，以确保医疗安全。

在谈及行业前景时，Kharraz 表示，AI在医疗中的角色应当是「辅助」而非「替代」，尤其是在涉及高风险诊断和治疗时，仍需依赖医生的专业判断。

他认为，未来患者会逐渐形成判断标准，明确哪些问题可以交给 AI 医生，哪些必须由医生处理。

（@APPSO）

05有看点的活动

招聘、项目分享、求助……任何你想和社区分享的信息，请联系我们投稿。（加微信 creators2022，备注「社区黑板报」）

1、WaytoAGI 全球HUICKATION·合肥徽客松 S2 即将开幕

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻