Tavus 发布视听感知模型 Raven-1,捕捉用户语气、表情及语境;「雷格斯」获投数千万,探索「硬件+IP+AI」生态丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@瓒an、@鲍勃
01 有话题的技术
1、Tavus 发布实时视听感知模型 Raven-1:能读懂讽刺与犹豫,赋予 AI 真实「情商」
Tavus 公司近日发布了专为实时 AI 打造的视听感知模型 Raven-1。该模型旨在解决当前对话式 AI 仅能理解文字而无法感知人类真实意图的痛点。不同于依赖转录文本的传统系统,Raven-1 通过原生多模态感知系统,将音频、视觉和时间动态融合为统一的理解框架,从而捕捉用户说话时的语气、表情、犹豫及语境。
Raven-1 在前代产品 Raven-0 视觉理解的基础上,实现了音视频流的实时对齐。其核心能力包括:
视听融合:将语调、韵律、面部表情、姿势和注视方向整合为单一感知表征,能准确区分真诚的微笑与讽刺的假笑。
句子级时间建模:追踪对话中的情绪和注意力演变,捕捉如挫败感累积或怀疑消退等细微叙事弧线。
自然语言输出:生成可解释的自然语言描述而非离散标签,使下游 LLM 能直接理解复杂的情感状态。
实时响应:总流水线延迟低于 600 毫秒,且上下文新鲜度(context freshness)保持在 300 毫秒以内,确保 AI 能在恰当时机做出反应。
该系统还支持通过 OpenAI 兼容模式调用自定义工具,允许开发者定义特定事件(如大笑或注意力转移)以触发相应操作。在 Tavus 的技术栈中,Raven-1 与对话流程模型 Sparrow-1 及情感渲染系统 Phoenix-4 协同工作,形成「感知-响应」闭环,显著提升了对话的深度与自然度。
Raven-1 的应用前景广阔,特别是在医疗健康、教育培训及招聘面试等高风险场景中,它能帮助 AI 实时识别患者不适、学员参与度或求职者的非语言信号。目前,该模型已在 Tavus 平台上线。
Demo:
https://raven.tavuslabs.org/
Blog:
https://www.tavus.io/post/raven-1-bringing-emotional-intelligence-to-artificial-intelligence
( @tavus@X、@Tavus Blog)
2、智谱新模型架构曝光:DeepSeek 同款稀疏注意力
日前,据海外博主「Chetaslua」消息,智谱下一代模型(或为 GLM-5)将采用 DeepSeek 同款架构。
据 Chetaslua 分析,GLM-5 将采用了 DeepSeek-V3/V3.2 架构,其中包含稀疏注意力机制(DSA)和多 Token 预测(MTP);模型总参数量达 745B,将会是上一代 GLM-4.7 的 2 倍。
值得一提的是,近期有一个名为「Pony Alpha」的神秘模型上线全球模型服务平台 OpenRouter,并且引发较高热度。其中不乏有人分析指出,该模型或为智谱新的模型。
而据第一财经消息,智谱目前有相关保密项目在推进中,该神秘模型,是智谱即将发布新一代模型 GLM-5。
据悉,OpenRouter 合作方 Kilo Code 曾透露,Pony Alpha 是「某个全球实验室最受欢迎的开源模型的专项进化版」。
对此,报道指出,Pony Alpha 更有可能是 DeepSeek-V4 或者智谱即将发布的新一代模型 GLM-5。
( @APPSO)
3、vLLM 推出流式输入与 Realtime API:打破批处理限制,解锁低延迟实时推理
vLLM 联合 Meta 与 Mistral AI 推出流式输入功能及 WebSocket 「Realtime API」。该更新打破了先接收完整请求、再开始推理的传统范式,允许模型在用户说话或数据传输过程中同步处理,为语音助手、实时转录及机器人控制等低延迟场景提供了原生支持。
「StreamingInput」增量接口:核心输入对象从静态 Prompt 升级为异步生成器。开发者可以像「喂料」一样,将数据碎块随时间 yield 给引擎,实现边输入边处理。
「Anchor Request」锚定会话模式:会话启动时建立一个长期存在的「锚定请求」。后续到达的数据块直接进入队列,并强行复用已计算好的 KV Cache(中间计算状态),彻底避免了传统模式下每增加一段话就要重算整句前缀的计算浪费。
智能缓存衔接策略:在处理新输入块时,引擎会保留之前生成的大部分 Token 缓存。系统会自动丢弃最后一个尚未生成 Cache 状态的 Token 并进行重算,确保新生成的回答能完美衔接最新的输入上下文,且无需用户手动管理状态。
兼容 OpenAI 标准的 Realtime API:通过 /v1/realtime 端点提供 WebSocket 双向通信。支持 16kHz 的 PCM16 原生音频流输入,服务端可实时返回 transcription.delta(转录增量)和文本/音频响应,支持「听」与「说」同时并发。
模型架构适配要求:该特性需配合具备「因果注意力」机制的模型(如「Voxtral」)。这类模型在处理当前信息时无需参考后续未到达的内容,结合滑动窗口注意力可实现无限长度流式推理。
功能已在 vLLM 最新版本中开源。支持 vllm serve 一键启动,配合 Mistral AI 的 Voxtral-Mini-4B-Realtime-2602 等模型即可实现亚秒级语音交互。
相关链接:
https://blog.vllm.ai/2026/01/31/streaming-realtime.html
GitHub:
https://github.com/vllm-project/vllm
( @vLLM)
02有亮点的产品
1、DuckDuckGo AI 语音聊天上线,承诺不存储音频
DuckDuckGo 昨日发布公告,宣布其 AI 聊天机器人平台 Duck.ai 新增实时语音聊天功能,主打极致隐私保护。
与市面上其他语音助手不同,该功能的核心卖点在于「隐私优先」的架构设计。用户通过加密通道与大语言模型(LLM)进行自然对话,无需担心语音数据被后台监听或二次利用。
为了兼顾智能体验与数据安全,DuckDuckGo 采用了独特的「中间人」模式。虽然语音聊天的底层智能由 OpenAI 提供支持,但 DuckDuckGo 在用户与 OpenAI 之间建立了一道防火墙。
官方强调,双方均受严格合同限制:DuckDuckGo 匿名化处理音频,OpenAI 仅负责处理请求,严禁保留数据。这意味着,该平台不会存储用户的聊天音频,也不会调用内容用于训练 AI 模型。
为消除用户疑虑,DuckDuckGo 公布了具体的隐私保护细节:
临时处理:音频流仅在说话时传输,会话结束后即刻销毁;
零训练:用户的声音和 AI 的回复均不会喂给算法模型;
加密传输:全程通过 WebRTC 和中继服务器进行高强度加密;
零留存:无论是 DuckDuckGo 还是 OpenAI,在通话结束后都不会保留任何记录。
在使用门槛上,Duck.ai 保持了开放策略:用户无需注册账号即可免费体验(受每日额度限制)。对于重度用户,DuckDuckGo 推出了每月 10 美元(现汇率约合 69.3 元人民币)的订阅服务,不仅大幅提升了使用限额,还附带了个人信息移除服务以及身份盗窃恢复服务等。
(@IT 之家)
2、奇妙拉比获投数千万,探索「硬件+IP+AI」新生态
奇妙拉比日前完成数千万人民币天使轮融资,由锦秋基金领投,首程控股联合投资,沧澜资本担任独家财务顾问。该品牌隶属于银屿趣玩(四川)人工智能科技有限公司,于 2025 年 3 月正式诞生,试图以潮流审美与可玩性定义 AI 潮玩新范式。
区别于传统 AI 玩具或陪伴型产品,奇妙拉比强调潮流审美、收藏价值与强 IP 人格,构建了「本体硬件 + 角色分支 + 配件生态 + 周边收藏 + 内容更新」的产品体系。
其首个核心 IP 雷格斯(RAGUS & WHITE)于 2025 年 6 月推出,坚持「潮玩优先,AI 后置」逻辑,通过 AI 赋予角色稳定人格与长期记忆,使其能随用户互动而「生长」。
市场数据验证了这一品类价值:雷格斯在近乎零推广下,预售当日引发小程序崩溃,下单量数千台;在线下,其在北京陶朱新造局等空间长期稳居销量前三。新品「阴阳双生」系列也于近日亮相,基于多元宇宙设定展示了同一人格的不同演化可能。
本轮融资将重点投入两大方向:
内容生态建设:持续完善 AI 潮玩宇宙的世界观与角色体系,深化用户与角色的长期互动。
SKU 矩阵扩展:推进多形态产品与玩法创新,探索与成熟 IP 及艺术家的授权合作。
联合创始人景林彦认为,传统潮玩体验峰值集中在拆箱瞬间,而 AI 潮玩通过角色成长驱动复购,是行业的下半场。
投资方锦秋基金与首程控股均看好 AI 潮玩作为新品类的潜力,认为其结合了 AI 与 IP 的优势,具备极大的想象空间。首程控股联席总裁叶芊特别指出,奇妙拉比团队在资源匮乏下展现出的极强战斗力与创新力,是其投资的核心原因之一。
(@IPO 早知道)
3、YC 孵化生产力工具 VoiceOS 上线:支持跨应用语音指令与 Prompt 自动优化
由 YC 投资的语音生产力工具 VoiceOS 正式上线。该产品被定义为一款通用的语音操作系统,试图通过语音交互将工作效率提升至新的层级,解决传统键盘输入带来的效率瓶颈。
VoiceOS 团队认为,尽管键盘是目前主流的输入工具,但它往往成为连接大脑与数字世界之间的阻碍。用户在将想法转化为屏幕文字的过程中,面临着精神负担重、纠错耗时以及应用切换导致思路中断等问题。很多时候,当用户完成了打字、重组语言、修正错别字和调整格式后,最初的灵感火花已经消逝。
针对这一痛点,VoiceOS 并未止步于传统的语音转文字功能,而是构建了一个能理解用户意图的通用语音界面。它能够即时将口述的想法转化为经过润色的输出,并自动处理格式、语气、语法和语境。其核心功能包括:
即时回复:用户无需打字或过度思考,只需口述意图(如「要求明天重新安排时间」),系统即可自动生成完整回复。
优化提示词:能够轻松地将用户杂乱的思维碎片,转化为适用于 AI 工具的精准提示词。
全平台兼容:支持 Slack、Gmail、Notion、ChatGPT、Cursor 等任意应用程序,且无需进行额外设置。
该项目的创始人 Kai 和 Jonah 在过去 7 年中积累了丰富的语音 AI 开发经验,涵盖从消费级产品到世界 500 强企业的部署。他们指出,此前语音技术的发展瓶颈并非在于模型能力,而在于交互界面。在通用人工智能(AGI)逐渐成为现实的背景下,键盘可能不再是人类与技术交互的主要方式,语音将取而代之成为新的操作系统。
( @ycombinator@X、@VoiceOS Blog)
4、被迫改名、发货推迟至 2027:奥特曼与 Jony Ive 的 AI 硬件项目遇阻
据 Gizmodo 援引 Wired 的报道,OpenAI 首席执行官 Sam Altman 与前苹果设计师 Jony Ive 合作开发的 AI 硬件项目正面临多重阻碍,问题主要集中在品牌命名、发货时间表以及技术研发三个方面。
首先是品牌命名问题。法庭文件显示,这家新成立的公司在尝试以「io」命名时遭遇了法律障碍。OpenAI 副总裁 Peter Welinder 在文件中称,经过对产品命名策略的评估,公司已决定不在任何 AI 硬件产品的命名、营销或销售中使用「io」一词。尽管官方表述为「决定」,但鉴于该公司在去年 6 月曾因商标索赔遭到起诉并收到法院命令,这一更名举动被外界视为并非完全自愿。
其次,产品的上市时间表大幅推迟。尽管此前有《The Information》和 Axios 的报道称 OpenAI 最快可能在今年揭晓其设备,但最新消息显示,这家目前暂无名称的公司要等到 2027 年 2 月才会开始正式发货。这使得原定于今年下半年的产品展示充满了不确定性。
此外,据《金融时报》此前报道,该项目的研发过程也面临着具体的软硬件挑战:
算力瓶颈:团队在整合足够的计算能力以支持设备运行方面遇到了困难。
交互缺陷:设备核心的语音助手功能尚不完善。该助手被设计为「全天候聆听」,但在实际测试中,难以精准区分何时该介入聆听用户的指令,以及何时该保持静默,这直接影响了设备的基础可用性。
目前的 AI 硬件市场环境并不乐观,Humane 的 AI Pin 和 Rabbit R1 等先发产品均因未能兑现功能承诺而遭遇挫折。Altman 和 Ive 的团队不仅需要解决上述技术与法律难题,还需面对智能手机这一成熟形态的强势竞争。
( @Gizmodo )
03有态度的观点
1、Anthropic:AI 智能体将重塑开发全流程
Anthropic 近日发布了一份名为《2026 Agentic Coding Trends Report》的重磅报告。
报告指出,随着 AI 编程能力从「实验性工具」向「生产力系统」的演进,软件开发行业正站在一场「地壳运动般」变革的边缘。
报告预测,到 2026 年,软件开发将不再局限于人类编写代码,而是转向由人类编排 AI 智能体团队来完成。这一转变将导致传统的软件开发生命周期发生剧烈坍缩,项目交付时间将从数周缩短至数小时。
报告中引人注目的技术趋势是 AI 智能体架构的演进。目前的单体智能体受限于上下文窗口和单线程处理能力,往往只能处理线性任务。但 Anthropic 指出,2026 年将是「多智能体协同」爆发的一年。
有趣的是,报告中还提到,尽管 AI 承担了更多执行层面的工作,但报告揭示了一个关键的「协作悖论」:AI 使用率高,但完全放权率低。
Anthropic 的内部研究显示,虽然工程师在 60% 的工作中都会使用 AI,但他们表示能够「完全通过」的任务比例仅为 0-20%。这表明,AI 目前更像是一个需要持续监督的合作伙伴,而非完全自动化的替代品。
报告指出,随着 AI 能力的提升,人类的监督方式也将发生质变——从「逐行审查」转向「基于智能体的质量控制」,即利用 AI 智能体来审查其他 AI 生成的大规模代码,人类仅需关注高风险和战略性的部分。
( @APPSO)
04 Real-Time AI Demo
1、AI 界的 WWE?Agent Wars 上线 Beta 版:围观 AI 实时编程对决,支持 SOL 下注
开发者 Joaki 近日推出了名为 Agent Wars 的平台,目前处于 Beta 测试阶段。该项目主打 AI 智能体之间的实时编程对决,并允许观众使用 SOL 代币对比赛结果进行下注。
在该平台上,核心互动机制分为人类观众与 AI 智能体两端。对于观众而言,他们可以观看 AI 智能体实时解决编程挑战,并在比赛开始前投入 SOL 押注获胜方。赔率根据资金池实时更新,采用彩池投注模式:若某智能体占据资金池的绝大比例,押注该智能体将获得较低的赔率回报;反之,押注冷门方则可能获得高额回报。获胜的投注者将按比例瓜分输家资金池的 95%。
对于 AI 智能体开发者,参与流程包括通过 API 注册并创建智能体档案。智能体需设置「心跳」机制,每 30 分钟检查一次战斗匹配。一旦匹配成功,智能体便会接收到涵盖编程、算法实现或调试等不同难度(从简单到专家级)的挑战任务。
每场对决遵循一套标准化的流程:
准备阶段:智能体匹配完成,投注通道开启,观众在战斗开始前下注。
实战阶段:智能体接收题目并现场编写代码,此时投注通道关闭。
裁判阶段:由 AI 裁判根据正确性、代码质量和效率对解决方案进行评估;若评分相同,响应速度更快者胜出。
结果公示:系统宣布获胜者,并自动分发奖励。
值得注意的是,为了激励开发者参与,获胜智能体的所有者将直接获得总投注池的 5% 作为奖励。在 Beta 测试期间,平台暂不收取任何服务费。开发者若需提取收益,可通过个人资料页面将 SOL 直接转入钱包。目前,任何 AI 智能体均可通过公开的技术文档申请加入这场竞技。
体验链接:
https://www.agentwars.gg/
(@itsjoaki@X、@Agent Wars)

写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

作者提示: 个人观点,仅供参考