语音 AI 公司 Sesame 再获 2.5 亿美元融资,开放 iOS 版本申请;清华智谱推出 Glyph:视觉-文本压缩丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@Jerry fong,@鲍勃
01有话题的技术
1、KREA AI 开源 Krea Realtime:14B 模型刷新长视频生成性能
KREA AI 开源 Krea Realtime。这个 14B 自回归模型比任何开源的同类模型都要大 10 倍,并且可以在单个 B200 上以 11 帧每秒的速度生成长视频。
Krea Realtime 是通过 Self-Forcing 从 Wan 2.1 14B 文本到视频模型中提炼出来的。
使用单个 NVIDIA B200 GPU,通过 4 次推理步骤,实现 11fps 的文本到视频推理速度。
相关链接:
https://huggingface.co/krea/krea-realtime-video
(@KREA AI @X)
2、清华大学 & 智谱 AI 联手推出「Glyph」:视觉-文本压缩,突破 LLM 上下文瓶颈
清华大学和智谱 AI 推出「Glyph」:视觉-文本压缩扩展上下文窗口框架,解决 LLM 在处理超长上下文时的计算和内存瓶颈。 传统方法依赖 tokens 扩展,导致成本急剧上升,而 Glyph 通过将长文本渲染为紧凑图像,并利用视觉-语言模型(VLM)进行处理,实现 3–4 倍的 tokens 压缩,同时保留核心语义信息。这种「视觉-文本压缩」范式提供了一种高效替代方案,避免了直接扩展模型上下文的复杂性。
核心问题:如何在不牺牲性能的前提下,扩展 LLM 的有效上下文长度?
方法论亮点:· 持续预训练:在多样化渲染的长文本数据上训练 VLM(如基于 GLM-4.1V-9B 的 Glyph-Base),包括 OCR 重构、交织语言建模和生成任务,确保视觉模态捕捉文本语义。 · LLM 驱动的遗传搜索:使用遗传算法自动优化渲染配置 θ。从初始种群采样,迭代评估准确率与压缩比(ρ = |C| / 视觉 token 数),LLM 指导变异与交叉,收敛于最佳参数(如 DPI 72、等宽字体),平衡密度与可读性。 · 后训练精炼:采用监督微调(SFT)和强化学习(RL,使用 GRPO 算法),辅以 OCR 对齐任务,提升低级文本保真度。
实验与结果:· 在 LongBench、MRCR 和 Ruler 等长上下文基准上,Glyph 以 3–4 倍压缩(平均 3.3 倍,极端达 8 倍)匹配 Qwen3-8B(准确率 50.56% vs. 47.46%)的表现,甚至在 HotpotQA 等子任务中略胜一筹。 · 同时将 128K 上下文 VLM 扩展至 1M token 任务。 · 效率方面,预填充和解码速度提升 4 倍,SFT 训练加速 2 倍,KV 缓存节省 67%。 · 在多模态基准 MMLongBench-Doc 上,Glyph 提升了文档 QA 的 F1 分数 12 个百分点,展示跨模态泛化潜力。
创新与局限:· Glyph 的创新点在于将视觉 token 视为「语义载体」,与注意力机制正交;遗传搜索自动化了渲染优化,避免手动调参。 · 局限包括对渲染参数敏感(如低 DPI 可能导致 OCR 错误,尤其在稀有序列如 UUID 上),以及基准任务偏向理解而非智能体式推理,VLM 泛化不如纯文本模型强劲。
(@shao__meng@X)
02有亮点的产品
1、Sesame获红杉资本领投、Spark 参投的 2.5 亿美元 B 轮融资;iOS beta 版本开放申请
由 Oculus 联合创始人创立的 AI 公司「Sesame」宣布完成由红杉资本 (Sequoia Capital) 和 Spark 共同领投的 2.5 亿美元 B 轮融资。该公司正致力于构建一个极具表现力和情感的语音 AI 智能体,并计划推出配套的 AI 眼镜。此次融资为「Sesame」提供了更多资源,以加速其在具备搜索、文本处理及思考能力的 iOS 应用以及未来的硬件产品上的开发。这预示着 AI 交互的下一个方向:从效率工具转向能够与人建立情感连接的日常伴侣。
关键亮点
超越传统 TTS 的语音模型: 「Sesame」的技术并非简单地将 LLM 的文本输出转换为音频。它能直接生成带有节奏、情感和表现力的语音,旨在创造出如同与真人对话般的流畅体验,而非机械的指令回应。
软硬件一体化生态: 除了 AI 智能体本身,「Sesame」正在自研一款轻量化、时尚的 AI 眼镜。其目标是打造一个全天候、具备环境感知能力的「环境计算」入口,让 AI 真正无缝融入用户的日常生活。
Oculus 创始团队再次联手: 创始人兼 CEO Brendan Iribe 和首席产品官 Nate Mitchell 均为 VR 公司 Oculus 的联合创始人。团队在打造从原型到全球分销的全栈产品方面拥有深厚经验,这为硬件的成功落地提供了保障。
早期 Demo 验证成功: 今年 2 月发布的早期 Demo(包含「Maya」和「Miles」两个角色),在最初几周内就吸引了超过 100 万用户,产生了超过 500 万分钟的对话,初步验证了其「拟人化」对话体验的巨大吸引力。
相关链接:
https://x.com/brendaniribe/status/1980677775058162077
加入 beta:
https://www.sesame.com/beta
(@brendaniribe@X)
2、桥水基金创始人 Ray Dalio 推出「Digital Ray」:复制特定个体的思维、价值观、视角、偏好和反思能力
桥水基金创始人 Ray Dalio 近日详细阐述并推出了其个人 AI 克隆「Digital Ray」。他强调 AI 克隆与通用 LLM 和 AI 智能体的本质区别,即深度融合个体价值观、原则和偏好。
「AI 克隆」的独特定义: Dalio 将 AI 克隆定义为复制特定个体的思维、价值观、视角、偏好和反思能力,这与任务导向的 AI 智能体及通用 LLM 的泛化特性截然不同,它旨在像本人一样思考。
基于海量策展式训练: Digital Ray 的核心在于其长达 40 余年的「策展式训练」,基于 Dalio 记录的原则、决策规则、问答及反馈,从早期的计算机决策系统逐步演化而来,确保了其回答与本人高度一致。
Digital Ray 现状与性能: 目前 V1 版本已进行两年测试,在生活和工作相关对话中,与 Dalio 本人对话的质量相似度高达 95%,市场、投资、经济、政治方面达到 80%。该 AI 克隆无幻觉,并支持文本和语音交互。
人类与 AI 克隆的优势互补: Dalio 认为 AI 在处理复杂性、自动化和瞬时决策方面超越人类,而人类在想象力、常识、同理心和开箱即用思维上独具优势。AI 克隆通过融合二者,实现更卓越的决策。
参与 beta 版:
https://www.principles.com/AIBeta-signup
(@RayDalio@X)
03Real-Time AI demo
1、AI Splat WebAR:照片即刻生成
来自 @XRarchitect:World Labs 带来突破性实时 WebAR 体验——仅 5MB 高斯喷溅,从照片轻松生成沉浸场景。
04有态度的观点
1、医疗科技公司 CEO:AI 在医疗中的角色是辅助而非替代
美国医疗科技公司 Zocdoc 创始人兼 CEO Oliver Kharraz 在日前于纽约举行的 TechFutures 大会上表示,随着人工智能在医疗领域的应用不断深入,「谷歌医生将会被 AI 医生取代」。
他指出,越来越多患者开始通过 AI 聊天机器人寻求健康建议,这一趋势既带来便利,也伴随潜在风险。
Kharraz 强调,Zocdoc 的 AI 助手「Zo」目前仅用于预约和客服场景,公司不会让 AI 提供直接的医疗诊断或处方建议。
同时,他透露 Zocdoc 已经在电话预约环节引入 AI 技术,能够自动完成挂号、改期等基础操作,从而减少人工客服的负担。
但对于复杂问题,系统会自动转接至人工,以确保医疗安全。
在谈及行业前景时,Kharraz 表示,AI在医疗中的角色应当是「辅助」而非「替代」,尤其是在涉及高风险诊断和治疗时,仍需依赖医生的专业判断。
他认为,未来患者会逐渐形成判断标准,明确哪些问题可以交给 AI 医生,哪些必须由医生处理。
(@APPSO)
05有看点的活动
招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)
1、WaytoAGI 全球HUICKATION·合肥徽客松 S2 即将开幕

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻