Tavus发布多模态数字伙伴PALs,能看、听、推理;李飞飞团队推出首款商用世界模型World Labs Marble丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@Jerry fong,@鲍勃
01 有话题的技术
1、TEN Framework 新增 WebSocket 支持:赋能轻量化语音智能体开发,加速软硬件集成
TEN Framework 新增 WebSocket 支持,为语音智能体开发(尤其是硬件与早期团队)带来更轻量、更灵活的选择。对话式 AI 开源框架 TEN Framework 现已正式支持 WebSocket,为 Voice Agent 开发者提供了 WebRTC 之外的又一高效传输方案。
相比 WebRTC,WebSocket 更加轻量、易调试、易集成,特别适用于以下两类场景:
1)智能硬件开发者:WebSocket 协议栈简单、资源占用更低,非常适合作为设备端的语音传输通道。
2)快速验证 Demo 的团队:无需投入 WebRTC 的复杂学习成本即可构建实时语音交互 MVP;在进入生产阶段时,也可无缝切换至 WebRTC,保持 STT → LLM → TTS 主体链路不变,仅替换传输层即可。
TEN Framework 通过模块化扩展图(extension graph)实现传输层可插拔,使开发者能够在「快速上手 → 稳定上线」之间自由切换,加速 Voice Agent 从 PoC 到生产落地的全流程。
https://theten.ai/blog/building-real-time-voice-ai-with-websockets
(@ TEN)
2、Tavus 发布 PALs,开创「人类计算」新界面
Tavus 近日宣布成功完成 4000 万美元 Series B 轮融资,由 CRV、Scale、Sequoia 和 YC 共同投资。同时,公司重磅发布了其开创性的「PALs」——一种全新的人类计算界面。PALs 旨在教会机器「成为人类的艺术」,使得使用电脑就像与朋友或同事交谈一样自然。这些情感智能、多模态的 PALs 能够看、听、推理,甚至像我们一样,有望彻底颠覆传统 GUI 图形用户界面,将科幻小说中的「类人」交互变为现实。
关键亮点
4000 万美元 B 轮融资: 由 CRV、Scale、Sequoia 和 YC 等知名机构领投,彰显了市场对 Tavus 愿景和技术的强烈认可。
「PALs」:新一代人类计算界面: PALs 是情感智能、多模态的数字伙伴,具备感知、理解和推理能力,能够看到、听到和像人类一样思考,并提供五个各具独特个性的 PAL 智能体。
「PALs」的五大核心能力:
无缝接入: 可通过视频通话、电话甚至文本进行面对面交流。
主动思考: 具备主动性,会主动联系、提醒遗忘事项,或仅仅是关心问候。
深度理解: 能够「看到」用户、理解语气、情感和意图,并以更人性化的方式进行沟通。
伴随进化: 具备高级记忆功能,记住用户偏好和需求,并随着时间推移自我适应。
任务能力: 可处理复杂任务,从回复邮件到调整日程、创建文档和进行研究。
三大 SoTA 基础模型支撑: Tavus 研究团队开发了三款最先进的基础模型:
Phoenix-4: 全双工实时渲染模型,用于逼真的面部和表情,具备完整的情感和头部姿态控制。
Sparrow-1: 音频理解和对话轮次模型,根据词汇、语义和韵律风格决定何时说什么。
Raven-1: 多模态感知和情感理解模型,用于解释情感、理解周围世界,并直观地像人类一样交流。
( @hassaanrza@X)
3、Nexa AI 发布 Hyperlink 1.0:本地 AI 智能体超级助理,解锁硬核「隐私」智搜
Nexa AI 近日推出了 Hyperlink 1.0,一款革命性的「设备内置 AI 智能体超级助理」。Hyperlink 旨在弥合强大云端 AI 智能体的隐私风险与本地工具的智能不足之间的巨大鸿沟。它提供 100% 本地化、离线运行的自然语言文件搜索和带引用的答案,能够即时理解并推理用户的数千份本地文件,如本地化的 Perplexity AI。Hyperlink 尤其适用于法律、金融、医疗等注重隐私的专业人士,通过代理 RAG (检索增强生成)技术,Hyperlink 不仅检索,更能连接信息、发现模式、提供可验证的深度洞察,同时确保数据永不离开用户设备。
100% 隐私、本地化、离线运行: 所有文件索引、问题提问、答案生成均在用户设备上完成,无需云端处理、数据传输或互联网连接,确保核心隐私数据绝不外泄,解决了云端 AI 智能体的隐私和安全痛点。
自然语言搜索与带引用答案: 用户可使用自然语言提问(如「总结供应商合同中的关键合规问题」),Hyperlink 会搜索数千份文档,阅读相关部分,合成答案,并提供可点击的引用,直接链接到本地源文件。
无限文件上下文与实时同步: 支持同步和搜索数千份文档,无文件大小限制、配额或使用层级。用户可以索引整个硬盘的 PDF、Word 文档、PPT、图片、会议记录,并进行跨所有文件的查询。文件自动实时同步,无需手动上传。
详细链接:
https://nexa.ai/blogs/hyperlink-v1
( @nexa_ai@X)
4、World Labs Marble 发布:AI 智能体生成「持久化」3D 世界
由李飞飞联合创立的 World Labs 11 月 12 日正式推出其首款商业化世界模型产品——Marble。该产品现已开放免费增值(freemium)与付费订阅服务,支持用户通过文本提示词、照片、视频、3D 布局图或全景图生成可编辑、可下载的 3D 环境。
所谓「世界模型」,是指一类能构建环境内部表征的 AI 系统,可用于预测未来状态并规划行动路径。目前,竞争对手如 Decart 与 Odyssey 仅推出免费演示版本;谷歌的 Genie 仍处于有限研究预览阶段。
Marble 的差异化优势在于其生成的是持久化、可下载的 3D 环境,而非在用户探索过程中动态生成世界。公司表示,这一设计显著减少了场景变形与不一致性。
此外,Marble 是业内首款原生集成 AI 编辑工具的模型,并配备混合式 3D 编辑器:用户可先手动构建空间结构框架(如墙体、体块或平面),再由 AI 填充视觉细节。World Labs 联合创始人 Justin Johnson 表示:「这是一种全新类别的模型——生成 3D 世界,其能力将随时间持续提升。事实上,我们已实现了显著改进。」
Marble 将同时提供 4 档订阅方案,最高旗舰版每月定价 95 美元,包含 75 次生成。Johnson 认为,Marble 的首批应用场景将集中于游戏开发、影视视效与虚拟现实。
(@极客公园)
02 有亮点的产品
1、Delphi 推出 AI 数字分身:告别重复问答,通过访谈即可实现「你」的 24/7 智能交互
Delphi 近日宣布推出创新服务,允许用户通过简单的访谈,即可创建自己的 AI 智能体 数字分身。该数字分身能够学习用户的思维模式和知识体系,并以用户的声音,在 24/7 全天候回答问题并与他人进行交互。此举旨在彻底解决个人重复回答相同问题的痛点,赋能个人实现「无处不在」的智能在线存在,极大提升效率和影响力。
用户无需任何技术背景,只需接受一次访谈,即可创建自己的 AI 智能体数字分身,数字分身能够以用户本人的声音,全天候不间断地回答问题并与他人进行连接与互动。Delphi 的 AI 智能体能够深入学习用户的思维模式和知识结构,确保回答的准确性和一致性。
突破了此前仅限于有在线内容(如 YouTube 视频、博客、播客)用户的限制,现在任何人都可以通过访谈创建「活的档案」。
( @daraladje@X)
2、Human Computer Lab 推出 LeLamp:重新定义家庭机器人,打造小型伴侣 AI 智能体入门级体验
Human Computer Lab 近日推出了 LeLamp,一款旨在重新定义家庭机器人形态的小型伴侣 AI 智能体。该项目源于一项探索小型机器人在人们生活中角色的实验,其核心愿景是让 LeLamp 成为继扫地机器人之后,第一个进入普通家庭的、安全、可爱的智能设备。LeLamp 希望通过提供爱好套件,让用户在构建过程中体验创造「宠物或朋友」的乐趣,从而培养人机情感联结,推动家庭机器人走向更亲近、个性化的未来。
官网链接:
https://www.lelamp.com/
( @SarkaryShahvir@X)
3、OpenAI 正式发布 GPT-5.1
昨晚,OpenAI 正式发布了 GPT-5.1 模型,并且首次允许用户细致地「调教」模型的聊天风格。本次 GPT-5.1 共发布了两个版本,分别为 GPT-5.1 Instant 和 GPT-5.1 Thinking。
GPT-5.1 Instant:
更听话: 它现在能更可靠地遵循用户的指令,准确回答我们真正想问的那个问题。
自适应推理 (Adaptive Reasoning): 这是 Instant 模型第一次引入该功能。这意味着它在遇到难题时,会智能地决定先思考一下,从而给出更彻底、更准确的答案;而面对简单问题时,它依然保持极速响应。
GPT-5.1 Thinking:
效率提升: 它现在能更精准地分配思考时间,在复杂问题上花费更多时间(答案更透彻),在简单问题上响应更快(等待时间更短)。
更易懂: 它的回答现在更清晰,使用了更少的行业术语和未定义的词汇。这让我们在用它处理复杂工作或解释技术概念时,能毫不费力地看懂。
同样温暖:Thinking 模型的默认基调也变得更温暖、更富同理心。
而本次更新重点,即 ChatGPT 的个性化体验。OpenAI 的目标是,是让用户毫不费力地将 ChatGPT 的语气和风格,调整到最舒服的状态。在原有的默认、友好、高效基础上,新增了三种官方风格:
Professional (专业): 适用于工作、写作等正式场合。
Candid (坦诚): 更直接,不拐弯抹角。
Quirky (古灵精怪): 顾名思义,它会变得更有趣、更跳脱。
除了这种直接选择,更丰富的基本风格和语调,OpenAI 正在实验一项新功能,允许用户直接从设置中微调 ChatGPT 的特征。
另外,在 GPT-5.1 的模型介绍 System Card 里,介绍了 OpenAI 在这方面的深入考量。OpenAI 首次在模型的安全评估中,加入了两个全新的、更人性化的维度:心理健康(Mental Health)和情感依赖(Emotional Reliance)。
11 月 12 日开始,付费用户(Pro, Plus, Go, Business)将逐步推送 GPT-5.1;免费和未登录用户则将在付费用户推送完毕后跟进;企业和教育版用户拥有 7 天的早鸟期切换开关(默认关闭),之后将统一升级到 GPT-5.1。
(@ APPSO)
03 有态度的观点
1、 Meta 首席 AI 官:氛围编程将成为 AI 新时代的入场券
日前,Meta 首席 AI 官 Alexandr Wang(汪滔)在接受 TBPN 播客采访时表示,如果当今的青少年想在快速变化的经济未来中脱颖而出,他们应该深入探索 AI 工具。
汪滔认为,下一代青年最大的机遇在于掌握人工智能。其强调,年轻人应该投入数千小时学习和实验 AI 模型,并且掌握其门路。
针对时下火热的氛围编程(Vibe Coding),汪滔更是认为「赶紧学」,他表示,那一群能与这些 AI 工具一同长大的年轻人,能够在未来的经济体中拥有巨大优势。汪滔更是称之为「现在就是比尔·盖茨、扎克伯格时刻」。
虽然强调了氛围编程,但汪滔整体核心是想表达出一种实践性、实验性的学习方法。
氛围编程不依赖于正式课程或教程,而是鼓励年轻人借助 AI 编程工具来构建、测试和打破事物。这是一个通过实践学习的过程——提示 AI 模型、分析其响应、迭代代码,并逐渐理解这些系统如何「思考」和执行任务。
(@ APPSO)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻