小红书推出 FireRedVAD，支持流式检测；出门问问推出金融投研版 AI 耳机，会议结束即生成投资纪要丨日报

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@koki、@鲍勃

01 有话题的技术

1、OpenAI 正式推出 GPT-5.4

当地时间 3 月 6 日，OpenAI 正式推出 GPT-5.4，这是其最新一代 AI 旗舰模型。据该公司介绍，新模型在推理能力、编程能力，以及处理涉及电子表格、文档和演示文稿等专业办公任务方面均取得明显进步，并且在完成任务时需要用户反复交互的次数更少。同时，这也是 OpenAI 首款具备原生计算机使用能力的模型，这意味着它可以代表用户操作电脑，在不同应用程序之间执行任务并完成工作流程。

目前，OpenAI 正将 GPT-5.4 向其 API 接口及 AI 编程工具 Codex 开放，同时将推理模型 GPT-5.4 Thinking 部署至 ChatGPT 平台。据 OpenAI 介绍，GPT-5.4 不仅能够编写代码来操控计算机，还能根据屏幕截图发出键盘和鼠标指令。该模型在使用网页浏览器、调用工具及 API 以辅助任务完成方面，也展现出更高的准确性和效率。此外，GPT-5.4 在处理需要整合多源信息的复杂查询时表现更为出色。OpenAI 表示，该模型「能够进行多轮持续搜索，精准识别最相关的信息源，尤其擅长解答‘大海捞针’式的难题，并将搜索结果整合为清晰、条理分明的答案」。

OpenAI 宣称 GPT-5.4 是其「迄今为止事实性最强的模型」，单个陈述的失实概率较 GPT-5.2 降低了 33%。在 ChatGPT 内部，GPT-5.4 Thinking 针对复杂查询将提供工作思路大纲，同时允许用户在模型生成回应的过程中随时调整或修改请求。该功能目前已上线 ChatGPT 网页端及安卓应用，iOS 版本则「即将推出」。GPT-5.4 现已面向 ChatGPT、Codex 及 API 全面推出，其中 GPT-5.4 Thinking 模型将向 Plus、Team 和 Pro 用户开放。此外，针对「复杂任务最高性能需求」的 GPT-5.4 Pro 模型也将通过 API 上线，并向 ChatGPT 企业版和 Edu 用户开放。

以下是 GPT-5.4 较之前版本的提升：

（@雷锋网）

2、Lightricks 正式发布 LTX-2.3 音视频模型及开源编辑器

LTX 团队今日同步发布 LTX-2.3 核心模型架构升级及基于该引擎构建的生产级视频编辑器 LTX Desktop。本次更新标志着 LTX 从纯模型提供方转向「引擎+工具」的完整生态布局。

TX-2.3 核心架构演进：

重建 Latent Space 与 VAE：通过更高质量数据重新训练 VAE 架构，提升了纹理与边缘的保留能力，显著改善了前代版本在低分辨率下发丝等细节「过软」的问题。
增强型 Text Connector：扩大了文本连接器容量并优化桥接架构。提升了对复杂提示词（多主体、空间关系、特定风格指令）的语义理解准确度，降低了生成偏移。
I2V（图生视频）算法重构：针对前代常见的「画面冻结」或单纯「平移（Ken Burns Effect）」问题进行了训练修正，增加了动态幅度并减少了意外切镜。
音频质量优化：通过清洗训练集中的噪点与伪影，并引入全新 Vocoder（声码器），实现了更稳定的音视频同步（A2V）与更低的背景杂讯。
原生纵向支持：支持最高 1080x1920 的原生竖屏视频生成，而非横屏裁剪。

与此同时，LTX 团队首次发布基于自身引擎构建的桌面端应用，旨在验证 LTX 引擎的商业化能力。其支持在本地机器全权运行，无需联网，无单次生成费用，可直接访问模型权重，同时亦可接入 API 作为后端。对个人及年营收 1000 万美元以下的企业免费开源；大型企业需商业授权。

Huggingface 链接：

https://huggingface.co/Lightricks/LTX-2.3

（@LTX Models）

3、FireRedVAD：业界领先的语音活动检测与音频事件检测方案

FireRedVAD 是一种业界领先（SOTA）的工业级语音活动检测（VAD）和音频事件检测（AED）解决方案。其支持非流式/流式 VAD 以及非流式 AED 以及 100 多种语言的语音/歌唱/音乐检测。在 FLEURS-VAD-102 数据集上，非流式 VAD 的 F1 分数达到 97.57%。

Github 链接：

https://github.com/FireRedTeam/FireRedVAD

Huggingface 链接：

https://huggingface.co/FireRedTeam/FireRedVAD

( @xukaituo@ModelScope)

02 有亮点的产品

1、出门问问发布全球首款 4G AI 录音耳机 TicNote Pods，联合 Alpha 派推出金融投研版「涨听」

近日，人工智能公司出门问问发布全球首款 4G AI 录音耳机 TicNote Pods 中国版。这款继年初在 CES 2026 全球首发并完成海外众筹发货后备受瞩目的 AI 硬件，正式进入国内市场。TicNote Pods 的发布，标志着 AI 耳机正式进化为具备独立能力的「AGI 硬件终端」，通过内置 4G 模块与「Shadow AI」双引擎，它摆脱对手机和 Wi-Fi 的依赖，为用户构建起「记录-分析-洞察-协作」的完整智能化体验。

与此同时，其联合金融 AI 应用 Alpha 派推出 TicNote Pods 金融投研版——命名为「涨听」的 AI 耳机，将独立 AI 能力注入投研场景。

TicNote Pods 内置的「Shadow AI 2.0」具备强大的听觉、记忆与思维能力，而 TicNote Cloud 则是这一切智慧的沉淀池。两者的结合，让录音不再是沉睡的文件，而是围绕「项目」持续演进的工作资产。

其主要体现为：

项目驱动的知识组织：在 TicNote Cloud 中，用户可将录音、PDF、Word 等文件归入不同项目空间，让散落的信息围绕核心任务形成结构化上下文。
Agent 级执行能力：Shadow AI 2.0 不仅能理解与问答，更具备高效的执行能力，可根据指令生成新文件、更新现有文档，甚至将多个会议纪要自动转化为 HTML 落地页或 PPT，直接交付项目成果。
团队×Agent 协作：团队成员与 Shadow AI 2.0 共享同一项目空间，每一个想法、每一次修改实时同步。Agent 不再是个人助手，而是团队的「数字伙伴」，在无缝协作中推动项目持续演进。

这一能力在金融投研场景中尤为关键。当用户进行线下调研或电话访谈时，无需依赖手机或 Wi-Fi，即可独立完成音频采集并上传云端。依托 4G 网络，上传与 AI 处理速度提升可达 50%，会议结束的瞬间，投资纪要摘要与待办事项便已生成。这种「独立自主」的硬件能力，让 AI 真正随叫随到。

（@出门问问）

2、Cluely 首席执行官 Roy Lee 承认去年公开谎报营收数据

硅谷明星初创公司 Cluely 再次陷入舆论风暴。周四，其联合创始人兼 CEO Roy Lee 在社交平台 X 上正式撤回此前言论，承认其去年向《TechCrunch》披露的 700 万美元年度经常性收入（ARR）纯属虚构。

Roy Lee 在 X 上称，去年的营收数据是他唯一一次「公开且露骨的谎话」，并对此表示正式撤回。讽刺的是，他在承认造假的同时，还试图通过贬低媒体来「甩锅」——称当时只是接到了一个「陌生女性的骚扰电话」并随口胡编。

然而，调查显示这并非意外：事实证明，该采访是由 Cluely 的公关团队主动联络媒体并安排的深度专访。有趣的是，Lee 在去年 10 月的 TechCrunch Disrupt 大会上曾告诫创业者「永远不要分享营收数字」，如今看来，这更像是为了掩盖之前言而释放的烟雾弹。

回顾过去，Cluely 的崛起路径似乎一开始就带有浓厚的「投机」色彩，最初，他因开发一款能让用户在视频面试中秘密检索答案的工具而走红，两位创始人甚至因该工具被哥伦比亚大学停学。凭借「作弊神器」带来的病毒式流量，公司先后斩获 Abstract Ventures、Susa Ventures 的 530 万美元种子轮，以及 Andreessen Horowitz （a16z）领投的 1500 万美元 A 轮融资。 但随着作弊争议和合规压力，公司现已转型为大众化的「AI 会议笔记助手。」

( @TechChurch)

03 有态度的观点

1、马斯克：特斯拉将是首个以人形机器人形式实现 AGI 的公司

近日，马斯克在 X 发文表示，特斯拉将是首个以「人形机器人」形式实现 AGI 的公司。

此前，他旗下的 AI 公司 xAI 一直被外界视为其 AGI 野心的主要载体。而在 xAI 被 SpaceX 收购、转型专注于太空算力基础设施建设之后，特斯拉正式接过了「具身 AGI」这一定位。

据 not a tesla app 报道，在马斯克的构想中，特斯拉通向 AGI 的路径与 OpenAI 等大语言模型路线截然不同。

特斯拉多年来通过 FSD 项目积累了海量真实道路视频数据，并自研 AI 芯片，训练的是一个能够理解物理规律、在复杂现实环境中做出决策的系统。

马斯克将这种「原子塑造」能力视为通往真正 AGI 的关键，而非单纯的语言或推理能力。

根据特斯拉最新计划，今年第一季度将发布 Optimus Gen 3 量产意向原型，中期开始在特斯拉工厂内部小批量部署，年底进入大规模量产阶段，长期目标是年产 100 万台，售价压至约 2 万美元。

为此，特斯拉已停产 Model S 和 Model X，将弗里蒙特工厂产线腾出用于 Optimus Gen 3 的生产。

在时间节点上，马斯克维持了此前的预测——AGI 将于今年实现，并在 2030 年前超越全人类智能的总和。

不过，这一判断与主流 AI 研究界存在显著分歧：去年一项覆盖逾 8500 名 AI 研究人员的调查显示，AGI 在 2040 年前实现的概率仅约 50%；AI 学者吴恩达则明确表示，AGI 的到来还需数十年。

( @APPSO)

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

作者提示: 个人观点，仅供参考