Qwen3.5-Omni上线,支持10小时音频输入、语义打断和音视频剧本级描述;Mistral融资8.3亿美元建设数据中心丨日报

图片


开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@鲍勃

01 有话题的技术

1、Qwen3.5-Omni 全模态模型上线,新增 10 小时音频输入、语义打断和音视频 Caption 多种功能

图片


昨天,千问发布最新一代全模态大模型 Qwen3.5-Omni,支持文本、图片、音频及音视频的理解与生成。


模型采用 Thinker-Talker 架构,提供 Plus、Flash、Light 三种规格,支持 256k 长上下文,可处理超过 10 小时的音频输入,以及超过 400 秒的 720P 音视频输入,训练数据涵盖逾 1 亿小时的音视频内容。


相较上一代 Qwen3-Omni,此次升级重点包括:


  • 多语言能力:语音识别支持 113 种语种和方言,语音生成覆盖 36 种语种和方言;

  • 音视频理解:Plus 版本在音频/音视频相关任务中取得 215 项子任务/Benchmark SOTA 成绩,总体能力达到 Gemini 2.5 Pro 水平;

  • 音视频 Caption:可生成带时间戳的结构化、剧本级细粒度描述;

  • Audio-Visual Vibe Coding:模型可直接根据音视频指令生成代码。实时交互方面,新版本原生支持语义打断、WebSearch 与复杂 Function Call 调用、端到端语音控制,以及音色克隆功能。


以下是其在音视频,音频,语音生成方面的表现与其他前沿模型的对比评估:


图片
图片
图片

参考链接:

https://qwen.ai/blog?id=qwen3.5-omni

( @APPSO)


2、美团龙猫团队发布并开源 LongCat-AudioDiT 模型

图片


LongCat 推出基于非自回归扩散架构的 TTS 模型 AudioDiT,直接在波形潜在空间执行生成任务。该模型通过解决扩散模型训练与推理的不匹配问题,在中英双语语音克隆任务上达到 SOTA 性能,并提供 1B 和 3.5B 两种参数规模。


关键亮点:


  • 波形潜在空间扩散架构:采用 Wav-VAE + Diffusion 的非自回归流水线,直接在波形潜在空间(Waveform Latent Space)操作,有效规避了传统自回归模型中的误差累积问题。

  • SOTA 级别语音克隆指标:在 Seed-ZH 与 Seed-Hard 测试集上分别取得 0.818 和 0.797 的 SIM 得分,其克隆相似度与可懂度在开源及闭源模型中均具备强竞争力。

  • APG 算法替代 CFG:引入 APG(Adaptive Pseudo-Guidance)算法取代传统的分类器自由引导(CFG),在提升合成音频自然度的同时,改善了声学质量的感知度。

  • 训练-推理不匹配优化:系统性解决了扩散式 TTS 模型长期存在的训练阶段与推理阶段分布不一致的底层技术难题。

  • 潜在空间设计新发现:通过实验证实了「更好的 VAE 并不等同于更好的 TTS」这一非直观结论,揭示了潜在空间重建质量与整体生成性能之间的复杂权衡关系。


GitHub 链接:

https://github.com/meituan-longcat/LongCat-AudioDiT


HuggingFace 链接:

https://huggingface.co/meituan-longcat/LongCat-AudioDiT-3.5B


(@Meituan_LongCat@X)



02 有亮点的产品

1、AirJelly 发布:基于 Task-Event 结构化记忆实现意图预判

图片


前字节跳动 MineContext 负责人柏特及其团队(持续低熵)发布桌面端 AI 助手 AirJelly。产品通过捕捉 Enter 键触发的关键上下文,将用户行为建模为结构化任务,并基于 OpenClaw 的 Pi 框架主动交付执行结果


完成了从「纯记录工具」向「主动式智能体(Proactive Agent)」的工程转型。


  • Enter 键触发的意图捕捉机制:废弃了传统全量录屏或定时截图方案,改以 Enter 键为「意图锚点」进行采样。此举使日均截图量从 1500 张降至约 300 张,在降低 80% 存储与 Token 成本的同时,通过关键帧之间的 AI 推理补全用户行为轨迹,显著提升了数据纯净度

  • Task-Event 层级化记忆架构:不同于 Rewind 等产品的平铺式时间轴记录,AirJelly 将 Context 组织为「Task(任务)- Event(事件)- 行为」层级。系统结合向量检索、关键词检索与 Agentic RAG 机制,并引入时间衰减权重,实现了比 Markdown 文件更高效的结构化召回。

  • 深度集成 Accessibility 权限:除屏幕 OCR 外,系统通过无障碍权限实时获取光标位置、输入框类型及所属应用。这使得 AI 能够区分微信、Word 或代码编辑器的 Context 差异,支撑其核心功能「Next Enter Prediction」(预测用户下一次输入或回信内容)。

  • Proactive 链路自动化:基于 OpenClaw 底层框架,AirJelly 构建了「截图 → 分析 → 建模 Event → 归纳 Task → 推断 Next Step → 触发 Proactive → 执行推送」的闭环。用户可通过「接收率」指标评估 Agent 对其意图理解的准确性。


( @FounderPark)



2、港科大团队推出 AI 气味戒指,0.0081 mm² 传感器实现 98.2% 饮食识别准确率

图片


香港科技大学研究团队开发出一款基于微型嗅觉传感芯片的 AI 可穿戴生物识别戒指,通过捕捉皮肤表面挥发性有机化合物(VOCs)分析人体代谢状态。该系统实现了对六类饮食及三种运动状态的非侵入式实时监测,饮食分类准确率达 98.2%


硬件采用三维垂直异质界面(3D-VHI)与钯(Pd)修饰的二氧化锡(SnO₂)纳米管耦合结构,在极小面积内集成了微加热器、纳米蜂窝膜和差异化响应像素,解决了皮肤 VOCs 浓度极低且环境干扰大的感知难题。


同时开发了轴向注意力堆叠长短期记忆神经网络(Axial Attention stacked LSTM),用于处理传感器采集的时间序列信号,提升了多组分气体分类和浓度回归的抗干扰性


实验数据显示,该设备对丙酮的预测精度达 98.80%,对复杂混合气体的检测曲线下面积(AUC)为 0.985,并能通过算法定量预测酒精摄入量。通过蓝牙连接手机提供个性化健康建议,可识别 6 种饮食摄入和 3 种运动状态


( @ScienceAI)


3、Mistral AI 筹集 8.3 亿美元融资 采购 13800 块 Nvidia GPU


据报道,法国人工智能实验室 Mistral AI 筹集了 8.3 亿美元的债务融资,用于采购 Nvidia GPU 并为其在巴黎附近的数据中心建设提供资金。这是该公司首次进行债务融资。


所筹资金将用于部署包含 13,800 块 Nvidia GB300 GPU 的 Grace Blackwell 基础设施,并提供 44MW 的供电容量。这些硬件将安装在由法国数据中心公司 Eclairion 拥有和运营的、位于巴黎南部 Bruyères-le-Châtel 的设施内。


该数据中心预计将于 2026 年第二季度末投入运营。


此次融资由包括 BNP Paribas 和 HSBC 在内的七家银行组成的财团提供,旨在支持该实验室到 2027 年底在欧洲各地确保 200MW 容量的目标,以满足政府和企业在构建与控制自主 AI 基础设施方面的需求。


(@橘鸦 Juya)



03 有态度的观点

1、彭博社:AI 正在抢走伦敦年轻人的第一份工作

图片


据彭博社报道,伦敦正在经历一场由 AI 驱动的青年就业结构性危机,而这场危机的冲击正以不成比例的方式集中落在初入职场的年轻人身上。


根据彭博社引用的数据,伦敦约三分之一的劳动者从事专业服务、行政、IT 及金融等高度暴露于 AI 替代风险的行业,这一比例显著高于全英国约四分之一的平均水平。


猎头公司 Robert Walters 英国及爱尔兰区董事总经理 Daniel Harris 指出,白领雇主正在大规模使用自动化手段替代初级岗位,或将招聘迁移至用工成本更低的地区。


报道还指出,AI 的冲击逻辑并不对称。它倾向于奖励经验丰富的资深从业者,同时优先淘汰那些尚未积累工作履历的入门级职位。这意味着,刚刚毕业、最需要第一份工作来积累经验的年轻人,恰恰是最难绕过这道门槛的群体。


据招聘网站 Adzuna 统计,伦敦的应届毕业生职位数量已从 2019 年的约 1.3 万个骤降至今年初的约 2000 个,降幅超过 85%;伦敦职位在全英国应届毕业生职位总量中的占比,也从十年前的三分之一萎缩至如今的五分之一。


与此同时,伦敦 16 至 24 岁青年的失业率已攀升至 25%,不仅是全英国最高,也高于马德里、巴黎等欧洲主要城市同龄人的就业水平。


一位计算机科学专业的应届毕业生坦言:「现在大家都在讨论 AI 替代软件开发者,而与一个犯错但能被资深工程师轻松纠正的技术竞争,实在太难了。」


( @APPSO)

图片


阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:


我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

作者提示: 个人观点,仅供参考

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    关键词
    // 相关帖子
    Coming soon...
    • 0
    Qwen3.5-Omni上线,支持10小时音频输入、语义打断和音视频剧本级描述;Mistral融资8.3亿美元建设数据中心丨日报RTRTE_Dev_Comm