嗅觉大模型 Patina 融资 200 万美元,创建气味编码系统丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@koki、@鲍勃
01 有话题的技术
1、LongCat-Video 开源:13.6B 参数多任务视频模型,音频驱动数字人视频生成框架
LongCat-Video 研发团队开源了拥有 13.6B 参数的视频生成基座模型 LongCat-Video,以及升级版的音频驱动人像视频生成框架 LongCat-Video-Avatar-1.5。该系统实现了在单一框架内统一多种视频生成任务,并利用步长蒸馏技术将人像生成的推理过程压缩至 8 步,旨在解决长视频生成中的色彩漂移、画质退化及推理效率低下问题。
13.6B 参数原生支持长视频续写:LongCat-Video 在统一架构内原生整合了 Text-to-Video (T2V)、Image-to-Video (I2V) 以及 Video-Continuation(视频续写)任务,通过原生预训练支持长达数分钟的视频生成,避免了传统级联模型中常见的色彩漂移与画质衰减。
时空粗细渐进生成与 Block Sparse Attention:模型在时间和空间双轴上采用由粗到细(Coarse-to-fine)的生成策略,结合 Block Sparse Attention 机制,优化了高分辨率下的计算效率,支持在数分钟内生成 720p、30fps 的视频。
基于多奖励 GRPO 的强化学习对齐:引入多奖励群组相对策略优化(Group Relative Policy Optimization, GRPO)算法进行人类反馈强化学习(RLHF),提升生成视频在物理规律和人类偏好上的对齐表现。
Whisper-Large 替换提升口型精度:在同步发布的 LongCat-Video-Avatar-1.5 中,使用 Whisper-Large 语音模型替代了原有的 Wav2Vec2,实现更精准的口型同步,并支持单流(Single-stream)与多流(Multi-stream)音频输入。
8 步步长蒸馏与多风格泛化:Avatar 1.5 框架通过步长蒸馏(Step Distillation)将推理过程加速至仅需 8 步,同时提升了长视频的物理合理性与时间稳定性,可泛化至动漫、动物以及复杂真实世界等多种风格领域。
参考链接:
https://meigen-ai.github.io/LongCat-Video-Avatar-1.5-Page/
GitHub:
https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5
HuggingFace:
https://github.com/meituan-longcat/LongCat-Video
( @GitHub)
2、Figure 创始人新公司 Hark 完成 7 亿美元 A 轮融资:估值 60 亿美元,部署 Nvidia B200 算力集群构建消费级「通用智能体」硬件
由机器人公司 Figure.AI 及电动航空企业 Archer 创始人 Brett Adcock 于 2025 年底创立的 AI 实验室 Hark,宣布完成 7 亿美元 A 轮融资,投后估值达 60 亿美元。本轮融资由 Parkway Venture Capital 领投,罕见集齐了 Nvidia、AMD、Intel 和 Qualcomm 等芯片半导体巨头。Hark 正在利用其自建的 B200 算力集群,研发一套旨在成为数字世界通用接口的消费级「通用智能体(Agentic AI)」系统及其配套专属硬件。
四大芯片巨头联合背书与 60 亿美元估值:本轮 7 亿美元融资吸引了 Nvidia、AMD Ventures、Intel Capital 和 Qualcomm Ventures 的集体参投。硬件巨头的深度绑定为 Hark 提供了稀缺的芯片产能倾斜、定制化硅片协同以及边缘计算技术支持。
自建 Nvidia B200 数据中心与 70 人研发团队:Hark 目前拥有 70 人研发团队,由前苹果产品设计高管 Abidur Chowdhury 出任设计总监。团队目前正在其部署了 Nvidia B200 GPU 的自有数据中心内,进行下一代多模态模型的预训练。
多模态模型与专用硬件双轨路线:Hark 计划于 2026 年夏季率先发布首个原生多模态模型,该模型将作为个人 AI 平台无缝接入现有的数字软件与服务生态;随后,公司将推出专门针对该系统进行软硬一体化调优的物理终端设备。
避开 B2B 编程赛道,锁定 C 端智能体交互:与 Anthropic、OpenAI 优先布局 B 端编程工具与企业级工作流不同,Hark 的研发核心完全聚焦于普通消费者,致力于开发能够替代传统 UI 交互的端侧智能体硬件,解决用户隐私与物理传感器融合的工程难题。
( @TechCrunch)
3、Patina 推出 Sense1 嗅觉大模型:基于人类受体激活数据,实现分子级气味逆向设计与合成预测
嗅觉科技初创公司 Patina 宣布获得 200 万美元融资(Betaworks 与 True Ventures 参投),并推出自研的嗅觉与味觉基础模型「Sense1」。该模型通过在生物学底层模拟人类鼻腔的嗅觉受体反应,直接进行高精度的气味分子逆向设计与合成预测,致力于建立气味与物性的数字化「通用编码」。
「Sense1」生物受体级基础模型:放弃传统的「花香」、「木质香」等主观且不精确的自然语言描述,Sense1 专注于在分子层面模拟人类鼻腔嗅觉受体的激活机制,构建全球首个嗅觉与味觉的通用数字编码(类似于颜色的 Pantone 系统)。
受体激活数据(Receptor Activation Data)高精度集成:通过与学术实验室合作收集气味分子与嗅觉受体相互作用的激活数据,利用计算模拟(Computational Simulation)预测分子与受体的物理结合,将全新香型分子的研发与合成周期从「年」缩短至「周」级别。
稀缺天然原料的生物级无损复制:模型支持对玫瑰精油等高成本、受供应链制约的天然原料进行分子级逆向复制。合成替代品在精确模拟相同嗅觉受体反应的同时,免除了植物种植与提取过程,显著降低碳排、水资源及石油化工原料的消耗。
利用「新分子专利」打破配方抄袭困局:由于香水成品配方(Formula)本身无法申请专利保护,极易被逆向工程复制。Patina 利用 AI 批量设计出自然界未曾存在的新气味分子(Scent Molecules),利用「新合成物质可申请专利」的法律特性,帮助调香师建立专属的技术产权屏障。
皮肤毒理与生理反应预测:Sense1 模型不仅能预测气味特性,还能高精度模拟并预测人类皮肤对特定化学分子的生理和毒理反应,从而在研发早期阶段替代传统的动物皮肤测试(Animal Testing)。
( @TechCrunch)
4、Fuchsia 推出 AI 智能体驱动的硬件合规服务:自动化解析多国标准并直接对接实验室,加速机器人与 IoT 设备认证
AI 硬件合规初创公司 Fuchsia 推出了一项 AI 驱动的端到端硬件合规服务,旨在替代传统的人工合规咨询。该服务利用 AI 智能体自动解析数千页的技术标准和案例,为硬件企业自动生成技术文件与测试计划,并直接对接合作实验室,从而缩短硬件产品的上市周期并降低合规成本。
多领域测试规范全覆盖:支持射频与电磁兼容(RF & EMC)、环境、冲击与振动(shock & vibe)、功能安全、电气及机械等多维度的合规测试与文档生成。
AI 智能体自动检索与差距分析:通过 AI 智能体检索数千页的标准文档及案例,提取辐射发射限制、IP 防护等级、平均无故障时间(MTBF)目标以及跌落与振动剖面等具体指标,自动识别设计缺陷并保持全流程可追溯性。
自动化技术文件撰写与实验室对接:平台可自动起草全套技术文件和测试计划,并代表用户直接与第三方合作实验室完成技术需求对接与沟通,免去用户多方通话和邮件跟进的沟通成本。
全流程可视化进度追踪:舍弃了传统咨询服务的按时计费模式,研发团队可通过可视化仪表盘实时监控硬件产品在各个合规测试阶段的进展。
( @ycombinator@X)
02 有亮点的产品
1、剪映海外版 CapCut 宣布接入 Gemini,聊天就能剪视频
剪映海外版 CapCut 昨日在 X 宣布,将与 Google Gemini 达成合作,用户未来可直接在 Gemini 应用内调用 CapCut 的视频与图像编辑功能,无需切换至独立应用。
据介绍,合作落地后,用户将能够在 Gemini 对话界面中使用 CapCut 的创意编辑能力完成图像和视频处理,实现从创意构思到内容产出的全流程贯通。
( @APPSO)
2、NotebookLM 前创始产品经理个人音频项目 Huxe 宣布停运:5 月 28 日关闭实时音频服务并彻底清除数据
NotebookLM 前创始产品经理 Raiza Martin 开发的个人交互式音频智能体产品 Huxe 宣布停止运营。该应用已于 5 月 21 日从 App Store 和 Play Store 下架,其全部音频生成与交互服务将于太平洋时间 5 月 28 日 10:00 彻底终止,随后将于 5 月 29 日清除服务器上的所有用户数据。
分阶段关停时间线:5 月 21 日下架应用,已安装用户可继续使用 7 天;5 月 28 日 10:00 PT 正式关停音频流播放及全部应用功能;5 月 29 日永久、安全地删除服务器端的所有用户历史数据。
多源异构数据音频化(Daily Briefing):该产品支持接入用户的日历、电子邮件及自定义兴趣源,通过后台管道化处理,实时将文本日程与零散信息转化为结构化的个性化语音摘要。
即时主题播客生成(DeepCast):用户输入任意主题或长文本提问(如历史、行业趋势等),系统可即时生成定制化的深度音频内容。
双向语音交互与生成式 UI:支持实时对话微调,音频内容可根据用户实时反馈和追问动态调整;同时配备 Generative UI,在音频播放时,屏幕会根据当前的语音上下文同步渲染并展示相关辅助视觉信息。
Huxe 的产品逻辑与 NotebookLM 广受欢迎的「Audio Overview」(音频概述)高度相似,本质上是在移动端探索将检索增强生成(RAG)与实时语音智能体(Voice Agent)相结合的个人助理形态。它的快速折戟表明,虽然「文本转互动播客」的概念新颖,但在移动端实时处理高私密性个人数据(如邮件、日历)时,开发者不仅面临极高的实时 TTS 与 LLM 推理成本、延迟挑战,还难以在隐私安全与用户高频刚需之间找到可持续的商业闭环。
( @gethuxie@X)
03 有态度的观点
1、Cloudflare 裁掉 20% 员工,CEO:这将成为未来一年企业界的普遍现象
Cloudflare CEO Matthew Prince 昨日发表评论文章,披露了该公司裁员逾 20% 背后的决策逻辑。
他表示,此次裁员并非因公司经营困难,将裁员定性为主动的业务结构调整,并援引管理学家彼得 · 德鲁克 1954 年的著作《管理的实践》作为分析框架。
Prince 将企业内部岗位分为三类:「建造者」负责开发产品,「销售者」负责开拓市场,「测量者」则涵盖内部审计、财务、法务、合规、中层管理、运营等职能。
他认为,建造者和销售者不会被 AI 取代——工程师生产效率提升意味着公司将招募更多工程师,而销售岗位依赖人际信任,同样难以被替代。「测量者」则不同,AI 可以以更低成本、更高精度持续完成此类工作。
基于这一判断,Cloudflare 此次裁员的主要对象正是测量者群体:中层管理岗位被大幅削减,运营职能整合为统一团队,市场营销和财务部门均有所收缩。
Prince 在文章结尾表示,AI 不会消灭所有工作,但会改变每一家企业的运营方式——最终结果是让人类更专注于创造价值和捕获价值的两件事:建造和销售。
( @APPSO)
04 社区黑板报
招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)
1、DimOS 具身智能黑客松 · 上海
Dimensional 是一家做开源机器人操作系统的高速增长的初创公司(硅谷背景,总部旧金山,深圳设有办公室)。下周他们和 muShanghai 在上海的阿里中心办一场具身智能黑客松 - 现场提供 10+ 台宇树 Go2 机器狗真机和全套的 DimOS Python SDK,让你用 Python 直接开发具身智能应用。Dimensional 的工程师全程驻场,和你一起 build。
5.26 - 5.28
上海阿里中心 T1
两个赛道:
自主与导航 - 让机器人在陌生环境里自己认路、规划、行走
Agent - 用大模型做机器人的大脑,给它指令,让它自己拆解任务并执行
全场大奖:宇树机器狗 Go2 真机带回家
赛道冠军:每队 ¥3,500
获奖团队直通 Dimensional 招聘流程,提供实习和全职岗位机会(早期期权 + 极具竞争力的薪资)
不需要硬件背景,带电脑就行。吃的、喝的、机器狗全包。
报名请扫描二维码或访问链接:https://luma.com/vprodwg0(需要科学上网)
主办方联系方式(微信号):jetsonearth

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
作者提示: 个人观点,仅供参考