Granola 融资 1.25 亿美元,从会议笔记转型企业级 AI;YC 初创尽调智能体:AI 语音访谈降本 90%丨日报

图片


开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@鲍勃


01 有话题的技术

1、谷歌推出 Lyria 3 Pro 音乐模型,最长生成三分钟专业音轨

Google 推出新一代音乐生成模型 Lyria 3 及 Lyria 3 Pro,现已通过 Gemini API 和 Google AI Studio 开放公测。该系列模型支持生成包含人声的高保真长音频,并引入了图像转音乐、时间对齐歌词以及分段作曲等高阶工程控制功能。


其关键亮点有:


  • 双版本分场景部署:提供 lyria-3-pro-preview(主打工作室级音质,支持最长 3 分钟全曲生成)与 lyria-3-clip-preview(针对高并发优化,生成 30 秒短片段,适用于社交媒体和循环素材)。

  • 多模态 Image-to-Music 输入:除文本 Prompt 外,模型支持直接输入图像,根据图片的视觉情绪、风格和氛围特征指导音频生成。

  • 高精度结构化控制:引入「作曲模式」(Composer mode),开发者可针对引子(Intro)、主歌(Verse)、桥段(Bridge)等不同部分独立设定时间、强度和描述;同时支持 Tempo(节奏速度)和 Key(调性)的精确参数调节。

  • 时间对齐歌词(Time-aligned lyrics):支持在 Prompt 中明确定义歌词在音轨中的具体起止时间点,实现词曲同步的精确引导。

  • 多模态端到端工作流:支持与 Gemini 3 Flash 联动,通过 Gemini 分析视频内容并自动生成描述性 Prompt,再由 Lyria 3 实时创作匹配的视频背景音乐。


( @google.blog)


2、美团龙猫团队开源 LongCat-Next 离散自回归多模态模型

图片


美团龙猫团队开源了 LongCat-Next,这是一款总参数 68.5B、激活参数 3B 的原生多模态模型。该模型基于 LongCat-Flash-Lite MoE 骨干网络,引入了 DiNA(离散原生自回归范式),将文本、视觉和音频统一在单一自回归目标下,并提出 dNaViT 作为任意分辨率的统一视觉接口。


该模型在多项多模态基准测试中表现强劲,在 28 倍压缩比 下维持生成质量,尤其在文本渲染方面表现突出。同时,它具备高级语音理解、低延迟语音对话及可定制声音克隆能力。


Github 链接:

https://github.com/meituan-longcat/LongCat-Next


HuggingFace 链接:

https://huggingface.co/meituan-longcat/LongCat-Next


(@橘鸦 Juya)


3、Tether 旗下 BrainWhisperer 脑信号解码准确率达 98.3%,Kaggle Brain-to-Text 大赛排名第四

Tether 旗下 BrainWhisperer 项目最新测试中,脑信号转文字准确率达到 98.3%,在 Brain-to-Text '25 Kaggle 竞赛 466 支参赛队伍中以 1.78% WER 排名第四


该系统基于 OpenAI Whisper 模型构建,结合 LoRA 微调技术,通过多模型集成管道将大脑皮层电信号解码为文字。Tether 同步推进跨个体信号解码框架及非侵入性 BCI 设备研发,并已发布基于 QVAC 平台的 Brain OS 开源脑操作系统。


(@深潮 TechFlow)



02 有亮点的产品


1、智谱多模态大模型「上车」迈巴赫

昨天,梅赛德斯-奔驰官宣,与清华大学、智谱合作开发的端侧多模态大模型技术将落地新一代 S 级轿车


新款梅赛德斯-迈巴赫 S 级轿车将率先搭载该技术,其后排娱乐系统将深度融合自然语言处理与视觉、音频等多模态理解及生成能力,并结合车内摄像头等感知硬件,为后排乘客带来更智能、更人性化的沉浸式交互体验。


新势力的车机习惯让用户反复喊唤醒词,迈巴赫则选了一个更无感的方式。


迈巴赫表示,这套系统不需要联网,也不需要你开口说话,系统单靠摄像头就能读懂后排乘客的手势和情绪状态,然后默默把空调、遮阳帘调整到合适的位置。


(@APPSO)


2、DiligenceSquared 推出 M&A 尽职调查智能体:通过 AI 语音访谈将研究成本降低 90%

图片


YC 2025 秋季营初创公司 DiligenceSquared 利用 AI 语音智能体自动化并购(M&A)中的商业尽职调查流程。通过自主访谈企业客户并合成深度报告,该服务将原本由顶级咨询公司收取的 50 万至 100 万美元服务费降低至 5 万美元,大幅提升了私募股权(PE)机构在交易早期的调研覆盖率。


  • AI 语音访谈智能体:采用类似 Keplar 与 Outset 的语音交互模型,自主与目标公司的企业客户及 C-suite 高管进行深度访谈,提取一手市场反馈。

  • 10 倍级的成本压缩:通过 AI 承担基础调研与数据合成工作,将单项尽职调查项目的费用从传统咨询模式(麦肯锡、BCG 等)的百万美元级别压缩至 5 万美元。

  • 长篇报告合成与校验:系统能将访谈见解与专有市场数据整合,生成长达 200 页的专业报告,并引入高级人类顾问(Human-in-the-loop)对结论的商业逻辑进行二次验证。

  • 前置化调研决策:低廉的价格使得 PE 机构能够将原本属于交易后期的深度调研(Due Diligence)前置到接触早期,从而在未建立高确信度前进行低成本试错。

  • 资深行业 Know-how 注入:创始团队由前 Blackstone 高级合伙人与 BCG 专家组成,确保 AI 提取的指标符合 PE 行业的硬核风控需求。


(@TechCrunch)


3、Granola 获 1.25 亿美元 C 轮融资:估值达 15 亿美元,发布企业级 API 与 Spaces 协作架构

图片


Granola 宣布完成 1.25 亿美元 C 轮融资,由 Index Ventures 领投,估值升至 15 亿美元。公司正式启动从「个人 AI 会议笔记」向「企业级 AI 上下文平台」的战略转型,通过发布全新 API 接口与 Spaces 协作框架,将对话转录数据转化为可供主流模型(Claude、GPT、Gemini)直接调用的结构化企业知识库。


  • 开放双轨制 API:推出 Personal API(面向 Business/Enterprise 计划个人用户)与 Enterprise API(面向系统管理员)。支持第三方应用编程访问会议上下文,打破会议数据孤岛。

  • 支持 MCP (Model Context Protocol):更新模型上下文协议接口,允许外部 AI 工具(如 Claude、ChatGPT、Cursor 等)根据文件夹权限直接读取、引用并理解用户存储在 Granola 内的会议背景。

  • Spaces 权限架构:引入 Team Space 与 My Notes 隔离机制。支持文件夹按公司或个人维度自动过滤,并支持无限层级的嵌套文件夹,解决大规模团队协作下的数据归档与权限穿透问题。

  • 企业级合规与治理套件:集成 SSO 登录、SCIM 成员同步、细粒度访问控制(Granular Access Control)以及合规同意管理。新增定时转录删除功能,支持从转录文本中选择性抹除敏感数据。

  • 多模型集成与连接器生态:内置 Gradiant Chat,底层聚合最新 Claude、GPT 及 Gemini 模型。目前已成为 Figma Make、Replit、Manus、v0、Bolt.new 等开发工具的官方数据连接器。


(@TechCrunch)



03 有态度的观点


1、经典科幻小说《雪崩》作者:我对头戴设备的判断是错的,二十年后人们还是会看手机

昨天,经典科幻小说《雪崩》(Snow Crash)作者 Neal Stephenson 发文,就 Meta 关闭元宇宙项目一事发表评论。


Stephenson 在文中回顾了自己在混合现实(MR)头戴设备公司 Magic Leap 任职期间的核心信念。


他曾说服同事和外界:「你真的认为二十年后,每个人还会整天盯着手里的小矩形屏幕吗?」彼时他认为答案显而易见:不会。


不过,在这篇最新的文章中,他直接推翻了这一判断。读者,我改变了想法。


二十年后,每个人依然会盯着手持的矩形屏幕——至少在唯一的替代方案是在脸上戴东西的前提下,是这样。Stephenson 进一步指出,试图将头戴设备做得越来越像普通眼镜,并不能解决接受度问题,反而带来了新的信任危机。


Google Glass 问世后几乎立刻催生了「glasshole」(眼镜傻 X)一词,Meta 外形接近普通眼镜的智能眼镜产品同样遭遇了类似的社会反弹。


他认为根源在于透明度的缺失:当有人盯着手机时,旁人至少能判断出他在看手机;而面对头戴设备的佩戴者,没有人知道对方是否正在注视自己,摄像头是否正在录像。这种不确定性让设备天然带有侵入感,「所以它令人不安」。


( @APPSO)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

作者提示:个人观点,仅供参考

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    关键词
    // 相关帖子
    Coming soon...
    • 0
    Granola 融资 1.25 亿美元,从会议笔记转型企业级 AI;YC 初创尽调智能体:AI 语音访谈降本 90%丨日报RTRTE_Dev_Comm