Tavus发布多模态数字伙伴PALs，能看、听、推理；李飞飞团队推出首款商用世界模型World Labs Marble丨日报

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@Jerry fong，@鲍勃

01 有话题的技术

1、TEN Framework 新增 WebSocket 支持：赋能轻量化语音智能体开发，加速软硬件集成

TEN Framework 新增 WebSocket 支持，为语音智能体开发（尤其是硬件与早期团队）带来更轻量、更灵活的选择。对话式 AI 开源框架 TEN Framework 现已正式支持 WebSocket，为 Voice Agent 开发者提供了 WebRTC 之外的又一高效传输方案。

相比 WebRTC，WebSocket 更加轻量、易调试、易集成，特别适用于以下两类场景：

1）智能硬件开发者：WebSocket 协议栈简单、资源占用更低，非常适合作为设备端的语音传输通道。

2）快速验证 Demo 的团队：无需投入 WebRTC 的复杂学习成本即可构建实时语音交互 MVP；在进入生产阶段时，也可无缝切换至 WebRTC，保持 STT → LLM → TTS 主体链路不变，仅替换传输层即可。

TEN Framework 通过模块化扩展图（extension graph）实现传输层可插拔，使开发者能够在「快速上手 → 稳定上线」之间自由切换，加速 Voice Agent 从 PoC 到生产落地的全流程。

https://theten.ai/blog/building-real-time-voice-ai-with-websockets

(@ TEN)

2、Tavus 发布 PALs，开创「人类计算」新界面

Tavus 近日宣布成功完成 4000 万美元 Series B 轮融资，由 CRV、Scale、Sequoia 和 YC 共同投资。同时，公司重磅发布了其开创性的「PALs」——一种全新的人类计算界面。PALs 旨在教会机器「成为人类的艺术」，使得使用电脑就像与朋友或同事交谈一样自然。这些情感智能、多模态的 PALs 能够看、听、推理，甚至像我们一样，有望彻底颠覆传统 GUI 图形用户界面，将科幻小说中的「类人」交互变为现实。

关键亮点

4000 万美元 B 轮融资：由 CRV、Scale、Sequoia 和 YC 等知名机构领投，彰显了市场对 Tavus 愿景和技术的强烈认可。
「PALs」：新一代人类计算界面： PALs 是情感智能、多模态的数字伙伴，具备感知、理解和推理能力，能够看到、听到和像人类一样思考，并提供五个各具独特个性的 PAL 智能体。

「PALs」的五大核心能力：

无缝接入：可通过视频通话、电话甚至文本进行面对面交流。
主动思考：具备主动性，会主动联系、提醒遗忘事项，或仅仅是关心问候。
深度理解：能够「看到」用户、理解语气、情感和意图，并以更人性化的方式进行沟通。
伴随进化：具备高级记忆功能，记住用户偏好和需求，并随着时间推移自我适应。
任务能力：可处理复杂任务，从回复邮件到调整日程、创建文档和进行研究。

三大 SoTA 基础模型支撑： Tavus 研究团队开发了三款最先进的基础模型：

Phoenix-4：全双工实时渲染模型，用于逼真的面部和表情，具备完整的情感和头部姿态控制。
Sparrow-1：音频理解和对话轮次模型，根据词汇、语义和韵律风格决定何时说什么。
Raven-1：多模态感知和情感理解模型，用于解释情感、理解周围世界，并直观地像人类一样交流。

( @hassaanrza@X)

3、Nexa AI 发布 Hyperlink 1.0：本地 AI 智能体超级助理，解锁硬核「隐私」智搜

Nexa AI 近日推出了 Hyperlink 1.0，一款革命性的「设备内置 AI 智能体超级助理」。Hyperlink 旨在弥合强大云端 AI 智能体的隐私风险与本地工具的智能不足之间的巨大鸿沟。它提供 100% 本地化、离线运行的自然语言文件搜索和带引用的答案，能够即时理解并推理用户的数千份本地文件，如本地化的 Perplexity AI。Hyperlink 尤其适用于法律、金融、医疗等注重隐私的专业人士，通过代理 RAG （检索增强生成）技术，Hyperlink 不仅检索，更能连接信息、发现模式、提供可验证的深度洞察，同时确保数据永不离开用户设备。

100% 隐私、本地化、离线运行：所有文件索引、问题提问、答案生成均在用户设备上完成，无需云端处理、数据传输或互联网连接，确保核心隐私数据绝不外泄，解决了云端 AI 智能体的隐私和安全痛点。
自然语言搜索与带引用答案：用户可使用自然语言提问（如「总结供应商合同中的关键合规问题」），Hyperlink 会搜索数千份文档，阅读相关部分，合成答案，并提供可点击的引用，直接链接到本地源文件。
无限文件上下文与实时同步：支持同步和搜索数千份文档，无文件大小限制、配额或使用层级。用户可以索引整个硬盘的 PDF、Word 文档、PPT、图片、会议记录，并进行跨所有文件的查询。文件自动实时同步，无需手动上传。

详细链接：

https://nexa.ai/blogs/hyperlink-v1

( @nexa_ai@X)

4、World Labs Marble 发布：AI 智能体生成「持久化」3D 世界

由李飞飞联合创立的 World Labs 11 月 12 日正式推出其首款商业化世界模型产品——Marble。该产品现已开放免费增值（freemium）与付费订阅服务，支持用户通过文本提示词、照片、视频、3D 布局图或全景图生成可编辑、可下载的 3D 环境。

所谓「世界模型」，是指一类能构建环境内部表征的 AI 系统，可用于预测未来状态并规划行动路径。目前，竞争对手如 Decart 与 Odyssey 仅推出免费演示版本；谷歌的 Genie 仍处于有限研究预览阶段。

Marble 的差异化优势在于其生成的是持久化、可下载的 3D 环境，而非在用户探索过程中动态生成世界。公司表示，这一设计显著减少了场景变形与不一致性。

此外，Marble 是业内首款原生集成 AI 编辑工具的模型，并配备混合式 3D 编辑器：用户可先手动构建空间结构框架（如墙体、体块或平面），再由 AI 填充视觉细节。World Labs 联合创始人 Justin Johnson 表示：「这是一种全新类别的模型——生成 3D 世界，其能力将随时间持续提升。事实上，我们已实现了显著改进。」

Marble 将同时提供 4 档订阅方案，最高旗舰版每月定价 95 美元，包含 75 次生成。Johnson 认为，Marble 的首批应用场景将集中于游戏开发、影视视效与虚拟现实。

（@极客公园）

02 有亮点的产品

1、Delphi 推出 AI 数字分身：告别重复问答，通过访谈即可实现「你」的 24/7 智能交互

Delphi 近日宣布推出创新服务，允许用户通过简单的访谈，即可创建自己的 AI 智能体数字分身。该数字分身能够学习用户的思维模式和知识体系，并以用户的声音，在 24/7 全天候回答问题并与他人进行交互。此举旨在彻底解决个人重复回答相同问题的痛点，赋能个人实现「无处不在」的智能在线存在，极大提升效率和影响力。

用户无需任何技术背景，只需接受一次访谈，即可创建自己的 AI 智能体数字分身，数字分身能够以用户本人的声音，全天候不间断地回答问题并与他人进行连接与互动。Delphi 的 AI 智能体能够深入学习用户的思维模式和知识结构，确保回答的准确性和一致性。

突破了此前仅限于有在线内容（如 YouTube 视频、博客、播客）用户的限制，现在任何人都可以通过访谈创建「活的档案」。

( @daraladje@X)

2、Human Computer Lab 推出 LeLamp：重新定义家庭机器人，打造小型伴侣 AI 智能体入门级体验

Human Computer Lab 近日推出了 LeLamp，一款旨在重新定义家庭机器人形态的小型伴侣 AI 智能体。该项目源于一项探索小型机器人在人们生活中角色的实验，其核心愿景是让 LeLamp 成为继扫地机器人之后，第一个进入普通家庭的、安全、可爱的智能设备。LeLamp 希望通过提供爱好套件，让用户在构建过程中体验创造「宠物或朋友」的乐趣，从而培养人机情感联结，推动家庭机器人走向更亲近、个性化的未来。

官网链接：

https://www.lelamp.com/

( @SarkaryShahvir@X)

3、OpenAI 正式发布 GPT-5.1

昨晚，OpenAI 正式发布了 GPT-5.1 模型，并且首次允许用户细致地「调教」模型的聊天风格。本次 GPT-5.1 共发布了两个版本，分别为 GPT-5.1 Instant 和 GPT-5.1 Thinking。

GPT-5.1 Instant:

更听话：它现在能更可靠地遵循用户的指令，准确回答我们真正想问的那个问题。
自适应推理（Adaptive Reasoning）：这是 Instant 模型第一次引入该功能。这意味着它在遇到难题时，会智能地决定先思考一下，从而给出更彻底、更准确的答案；而面对简单问题时，它依然保持极速响应。

GPT-5.1 Thinking:

效率提升：它现在能更精准地分配思考时间，在复杂问题上花费更多时间（答案更透彻），在简单问题上响应更快（等待时间更短）。
更易懂：它的回答现在更清晰，使用了更少的行业术语和未定义的词汇。这让我们在用它处理复杂工作或解释技术概念时，能毫不费力地看懂。
同样温暖：Thinking 模型的默认基调也变得更温暖、更富同理心。

而本次更新重点，即 ChatGPT 的个性化体验。OpenAI 的目标是，是让用户毫不费力地将 ChatGPT 的语气和风格，调整到最舒服的状态。在原有的默认、友好、高效基础上，新增了三种官方风格：

Professional （专业）：适用于工作、写作等正式场合。
Candid （坦诚）：更直接，不拐弯抹角。
Quirky （古灵精怪）：顾名思义，它会变得更有趣、更跳脱。

除了这种直接选择，更丰富的基本风格和语调，OpenAI 正在实验一项新功能，允许用户直接从设置中微调 ChatGPT 的特征。

另外，在 GPT-5.1 的模型介绍 System Card 里，介绍了 OpenAI 在这方面的深入考量。OpenAI 首次在模型的安全评估中，加入了两个全新的、更人性化的维度：心理健康（Mental Health）和情感依赖（Emotional Reliance）。

11 月 12 日开始，付费用户（Pro， Plus， Go， Business）将逐步推送 GPT-5.1；免费和未登录用户则将在付费用户推送完毕后跟进；企业和教育版用户拥有 7 天的早鸟期切换开关（默认关闭），之后将统一升级到 GPT-5.1。

(@ APPSO)

03 有态度的观点

1、 Meta 首席 AI 官：氛围编程将成为 AI 新时代的入场券

日前，Meta 首席 AI 官 Alexandr Wang（汪滔）在接受 TBPN 播客采访时表示，如果当今的青少年想在快速变化的经济未来中脱颖而出，他们应该深入探索 AI 工具。

汪滔认为，下一代青年最大的机遇在于掌握人工智能。其强调，年轻人应该投入数千小时学习和实验 AI 模型，并且掌握其门路。

针对时下火热的氛围编程（Vibe Coding），汪滔更是认为「赶紧学」，他表示，那一群能与这些 AI 工具一同长大的年轻人，能够在未来的经济体中拥有巨大优势。汪滔更是称之为「现在就是比尔·盖茨、扎克伯格时刻」。

虽然强调了氛围编程，但汪滔整体核心是想表达出一种实践性、实验性的学习方法。

氛围编程不依赖于正式课程或教程，而是鼓励年轻人借助 AI 编程工具来构建、测试和打破事物。这是一个通过实践学习的过程——提示 AI 模型、分析其响应、迭代代码，并逐渐理解这些系统如何「思考」和执行任务。