小红书推出 FireRedVAD,支持流式检测;出门问问推出金融投研版 AI 耳机,会议结束即生成投资纪要丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@koki、@鲍勃
01 有话题的技术
1、OpenAI 正式推出 GPT-5.4
当地时间 3 月 6 日,OpenAI 正式推出 GPT-5.4,这是其最新一代 AI 旗舰模型。据该公司介绍,新模型在推理能力、编程能力,以及处理涉及电子表格、文档和演示文稿等专业办公任务方面均取得明显进步,并且在完成任务时需要用户反复交互的次数更少。同时,这也是 OpenAI 首款具备原生计算机使用能力的模型,这意味着它可以代表用户操作电脑,在不同应用程序之间执行任务并完成工作流程。
目前,OpenAI 正将 GPT-5.4 向其 API 接口及 AI 编程工具 Codex 开放,同时将推理模型 GPT-5.4 Thinking 部署至 ChatGPT 平台。据 OpenAI 介绍,GPT-5.4 不仅能够编写代码来操控计算机,还能根据屏幕截图发出键盘和鼠标指令。该模型在使用网页浏览器、调用工具及 API 以辅助任务完成方面,也展现出更高的准确性和效率。此外,GPT-5.4 在处理需要整合多源信息的复杂查询时表现更为出色。OpenAI 表示,该模型「能够进行多轮持续搜索,精准识别最相关的信息源,尤其擅长解答‘大海捞针’式的难题,并将搜索结果整合为清晰、条理分明的答案」。
OpenAI 宣称 GPT-5.4 是其「迄今为止事实性最强的模型」,单个陈述的失实概率较 GPT-5.2 降低了 33%。在 ChatGPT 内部,GPT-5.4 Thinking 针对复杂查询将提供工作思路大纲,同时允许用户在模型生成回应的过程中随时调整或修改请求。该功能目前已上线 ChatGPT 网页端及安卓应用,iOS 版本则「即将推出」。GPT-5.4 现已面向 ChatGPT、Codex 及 API 全面推出,其中 GPT-5.4 Thinking 模型将向 Plus、Team 和 Pro 用户开放。此外,针对「复杂任务最高性能需求」的 GPT-5.4 Pro 模型也将通过 API 上线,并向 ChatGPT 企业版和 Edu 用户开放。
以下是 GPT-5.4 较之前版本的提升:
(@雷锋网)
2、Lightricks 正式发布 LTX-2.3 音视频模型及开源编辑器
LTX 团队今日同步发布 LTX-2.3 核心模型架构升级及基于该引擎构建的生产级视频编辑器 LTX Desktop。本次更新标志着 LTX 从纯模型提供方转向「引擎+工具」的完整生态布局。
TX-2.3 核心架构演进:
重建 Latent Space 与 VAE:通过更高质量数据重新训练 VAE 架构,提升了纹理与边缘的保留能力,显著改善了前代版本在低分辨率下发丝等细节「过软」的问题。
增强型 Text Connector:扩大了文本连接器容量并优化桥接架构。提升了对复杂提示词(多主体、空间关系、特定风格指令)的语义理解准确度,降低了生成偏移。
I2V(图生视频)算法重构:针对前代常见的「画面冻结」或单纯「平移(Ken Burns Effect)」问题进行了训练修正,增加了动态幅度并减少了意外切镜。
音频质量优化:通过清洗训练集中的噪点与伪影,并引入全新 Vocoder(声码器),实现了更稳定的音视频同步(A2V)与更低的背景杂讯。
原生纵向支持:支持最高 1080x1920 的原生竖屏视频生成,而非横屏裁剪。
与此同时,LTX 团队首次发布基于自身引擎构建的桌面端应用,旨在验证 LTX 引擎的商业化能力。其支持在本地机器全权运行,无需联网,无单次生成费用,可直接访问模型权重,同时亦可接入 API 作为后端。对个人及年营收 1000 万美元以下的企业免费开源;大型企业需商业授权。
Huggingface 链接:
https://huggingface.co/Lightricks/LTX-2.3
(@LTX Models)
3、FireRedVAD:业界领先的语音活动检测与音频事件检测方案
FireRedVAD 是一种业界领先(SOTA)的工业级语音活动检测(VAD)和音频事件检测(AED)解决方案。其支持非流式/流式 VAD 以及非流式 AED 以及 100 多种语言的语音/歌唱/音乐检测。在 FLEURS-VAD-102 数据集上,非流式 VAD 的 F1 分数达到 97.57%。
Github 链接:
https://github.com/FireRedTeam/FireRedVAD
Huggingface 链接:
https://huggingface.co/FireRedTeam/FireRedVAD
( @xukaituo@ModelScope)
02 有亮点的产品
1、出门问问发布全球首款 4G AI 录音耳机 TicNote Pods,联合 Alpha 派推出金融投研版「涨听」
近日,人工智能公司出门问问发布全球首款 4G AI 录音耳机 TicNote Pods 中国版。这款继年初在 CES 2026 全球首发并完成海外众筹发货后备受瞩目的 AI 硬件,正式进入国内市场。TicNote Pods 的发布,标志着 AI 耳机正式进化为具备独立能力的「AGI 硬件终端」,通过内置 4G 模块与「Shadow AI」双引擎,它摆脱对手机和 Wi-Fi 的依赖,为用户构建起「记录-分析-洞察-协作」的完整智能化体验。
与此同时,其联合金融 AI 应用 Alpha 派推出 TicNote Pods 金融投研版——命名为「涨听」的 AI 耳机,将独立 AI 能力注入投研场景。
TicNote Pods 内置的「Shadow AI 2.0」具备强大的听觉、记忆与思维能力,而 TicNote Cloud 则是这一切智慧的沉淀池。两者的结合,让录音不再是沉睡的文件,而是围绕「项目」持续演进的工作资产。
其主要体现为:
项目驱动的知识组织:在 TicNote Cloud 中,用户可将录音、PDF、Word 等文件归入不同项目空间,让散落的信息围绕核心任务形成结构化上下文。
Agent 级执行能力:Shadow AI 2.0 不仅能理解与问答,更具备高效的执行能力,可根据指令生成新文件、更新现有文档,甚至将多个会议纪要自动转化为 HTML 落地页或 PPT,直接交付项目成果。
团队×Agent 协作:团队成员与 Shadow AI 2.0 共享同一项目空间,每一个想法、每一次修改实时同步。Agent 不再是个人助手,而是团队的「数字伙伴」,在无缝协作中推动项目持续演进。
这一能力在金融投研场景中尤为关键。当用户进行线下调研或电话访谈时,无需依赖手机或 Wi-Fi,即可独立完成音频采集并上传云端。依托 4G 网络,上传与 AI 处理速度提升可达 50%,会议结束的瞬间,投资纪要摘要与待办事项便已生成。这种「独立自主」的硬件能力,让 AI 真正随叫随到。
(@出门问问)
2、Cluely 首席执行官 Roy Lee 承认去年公开谎报营收数据
硅谷明星初创公司 Cluely 再次陷入舆论风暴。周四,其联合创始人兼 CEO Roy Lee 在社交平台 X 上正式撤回此前言论,承认其去年向《TechCrunch》披露的 700 万美元年度经常性收入(ARR)纯属虚构。
Roy Lee 在 X 上称,去年的营收数据是他唯一一次「公开且露骨的谎话」,并对此表示正式撤回。讽刺的是,他在承认造假的同时,还试图通过贬低媒体来「甩锅」——称当时只是接到了一个「陌生女性的骚扰电话」并随口胡编。
然而,调查显示这并非意外:事实证明,该采访是由 Cluely 的公关团队主动联络媒体并安排的深度专访。有趣的是,Lee 在去年 10 月的 TechCrunch Disrupt 大会上曾告诫创业者「永远不要分享营收数字」,如今看来,这更像是为了掩盖之前言而释放的烟雾弹。
回顾过去,Cluely 的崛起路径似乎一开始就带有浓厚的「投机」色彩,最初,他因开发一款能让用户在视频面试中秘密检索答案的工具而走红,两位创始人甚至因该工具被哥伦比亚大学停学。凭借「作弊神器」带来的病毒式流量,公司先后斩获 Abstract Ventures、Susa Ventures 的 530 万美元种子轮,以及 Andreessen Horowitz (a16z) 领投的 1500 万美元 A 轮融资。 但随着作弊争议和合规压力,公司现已转型为大众化的「AI 会议笔记助手。」
( @TechChurch)
03 有态度的观点
1、马斯克:特斯拉将是首个以人形机器人形式实现 AGI 的公司
近日,马斯克在 X 发文表示,特斯拉将是首个以「人形机器人」形式实现 AGI 的公司。
此前,他旗下的 AI 公司 xAI 一直被外界视为其 AGI 野心的主要载体。而在 xAI 被 SpaceX 收购、转型专注于太空算力基础设施建设之后,特斯拉正式接过了「具身 AGI」这一定位。
据 not a tesla app 报道,在马斯克的构想中,特斯拉通向 AGI 的路径与 OpenAI 等大语言模型路线截然不同。
特斯拉多年来通过 FSD 项目积累了海量真实道路视频数据,并自研 AI 芯片,训练的是一个能够理解物理规律、在复杂现实环境中做出决策的系统。
马斯克将这种「原子塑造」能力视为通往真正 AGI 的关键,而非单纯的语言或推理能力。
根据特斯拉最新计划,今年第一季度将发布 Optimus Gen 3 量产意向原型,中期开始在特斯拉工厂内部小批量部署,年底进入大规模量产阶段,长期目标是年产 100 万台,售价压至约 2 万美元。
为此,特斯拉已停产 Model S 和 Model X,将弗里蒙特工厂产线腾出用于 Optimus Gen 3 的生产。
在时间节点上,马斯克维持了此前的预测——AGI 将于今年实现,并在 2030 年前超越全人类智能的总和。
不过,这一判断与主流 AI 研究界存在显著分歧:去年一项覆盖逾 8500 名 AI 研究人员的调查显示,AGI 在 2040 年前实现的概率仅约 50%;AI 学者吴恩达则明确表示,AGI 的到来还需数十年。
( @APPSO)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
作者提示: 个人观点,仅供参考