融资2700万美元，Linq推出统一通信API；Figure创始人注资1亿美元成立Hark，研发多模态模型和非穿戴硬件丨日报

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@koki、@鲍勃

01 有话题的技术

1、通义推出 PrismAudio：声画同频，音效随行

PrismAudio 是一个视频生成音频（Video-to-Audio）框架。

其研究重点是环境音/音效合成，比如马蹄声、风雨声、金属敲击声等与画面内容同步的背景声音。

作为首个将强化学习与思维链紧密结合的视频生成环境音框架。简单来说，其工作原理是教会模型「先思考，再发声」，并且有四位「老师」同时给它打分。

语义老师盯着画面，教模型认准「这是马蹄声，不是鸟叫声」。
时序老师拿着秒表，监督声音和动作必须严丝合缝。
美学老师挑剔音质，要求声音自然、有层次、不刺耳。
空间老师听声辨位，检查声音是不是从该来的方向来。

生成音频后，怎么判断它做得好不好？光靠「像不像真实声音」这一个标准，仍然会让模型再次陷入「顾此失彼」的老问题。所以，我们给每个老师配了一个奖励函数，让四个老师各自打分，互不干扰：

语义老师用MS-CLAP 打分，检查声音和画面内容是否匹配。
时序老师用 Synchformer 打分，精准测量声音和动作是否同步。
美学老师用 Meta Audiobox Aesthetics 打分，从清晰度、动态、丰富度等多个维度评估音质。
空间老师用 StereoCRW 打分，验证左右声道信息是否与画面中的声源位置一致。

四个分数加在一起，形成一个综合评分。模型的目标，就是不断调整自己的生成策略，让这个总分越来越高。这样模型不会被单一标准牵着走，而是必须同时满足四个的要求，哪个维度都不掉队。

想让 AI 做好视频配音，关键不在于堆参数、堆数据，而在于让模型学会像人一样思考和权衡。「拆解任务、多维反馈、高效优化」这套方法论不仅适用于视频配音，也为其他多目标生成任务提供了新思路。

HuggingFace 链接：

https://huggingface.co/FunAudioLLM/PrismAudio

（@通义实验室）

2、Smallest AI 发布 Lightning V3/V3.1 模型：原生 44.1kHz 采样率，支持 5-15 秒零样本跨语种声音克隆

Smallest AI 正式发布专为对话智能体设计的 TTS 模型 Lightning V3 及其克隆版本 V3.1。该模型针对流式生成场景下的实时语块（real-time chunks）输出进行优化，在解决多语种混合（如 Spanglish 词级切换）自然度降级问题的同时，开放了底层发音控制能力。

5-15秒零样本声音克隆：Lightning V3.1 支持仅通过 5-15 秒的音频素材生成生产级声音克隆。该功能无需微调（fine-tuning），单次克隆即可跨 15 种语言进行合成，并原生保留源音频的非规则特征（如停顿节奏、呼吸声与强调习惯）。

原生 44.1kHz 与信道适配：模型底层原生输出 44.1kHz 音频，同时针对不同受限带宽或部署场景提供纯净的降采样（downsample）能力，支持单模型输出 24kHz、16kHz WAV，以及专为传统电话系统优化的 8kHz mulaw 格式。

发音字典（Pronunciation dictionaries）接口：针对医疗术语、品牌名等分布外（OOD）词汇导致的置信度下降问题，提供发音字典覆盖层。开发者可通过硬编码强制指定预期输出，绕过模型自动推理，确保垂直领域专有名词的 100% 准确率。

对话场景评估与数据表现：在基于 Seed-TTS 评估语料库及 LLM-as-judge 框架的流式生成测试中，其单词错误率（WER）为 5.38%；官方披露数据显示，在整体自然度盲测中对标 OpenAI gpt-4o-mini-tts 的胜率约为 76%。

Lightning V3 及 V3.1 闭源模型现已正式上线并开放 API 接入，采用按需付费（Pay-as-you-go）模式，无基础订阅费或最低消费门槛。

( @kamath_sutra@X)

3、Figure 创始人个人注资 1 亿美元成立 Hark：研发端到端多模态模型与非穿戴 AI 硬件

连续创业者 Brett Adcock 创立的全新 AI 实验室 Hark 宣布投入 1 亿美元研发原生多模态模型及其配套硬件。该系统主打软硬件底层融合、具备长记忆（persistent memory）及实时音视觉交互能力。首批 AI 模型定于今年夏季发布，试图通过重构底层设备交互，替代现有的 App/Web 访问层。

算力与基建部署：Hark 将于今年 4 月正式启用由数千张 Nvidia GPU 组成的新算力集群，以支持其端到端多模态模型的训练。

跨平台具身数据协同：Hark 的模型目前已在同属 Adcock 旗下的双足机器人公司 Figure 的设备上进行训练，直接获取物理世界的交互数据，但两家公司保持独立运营，无合并计划。

明确排除穿戴式硬件形态：设计总监 Abidur Chowdhury（前 Apple iPhone Air 工业设计负责人）明确表示，Hark 的硬件产品不会采用智能眼镜、AI Pin 等在人类与世界间「增加物理夹层」的穿戴式形态。

团队与资金规模：Hark 目前拥有 45 名研发人员，核心工程师与设计师来自 Meta AI、Apple 和 Tesla，并已获得创始人 1 亿美元的个人种子轮资金。

首批 AI 基础模型预计将于今年夏季发布（预计闭源），硬件终端发布时间与定价暂未披露。

（@TechCrunch）

4、Linq 获 2700 万美元融资并发布统一消息 API：原生集成 iMessage 与 RCS，延迟低于 120ms

通信集成平台 Linq 今日宣布完成 2700 万美元融资，并同步推出集成 iMessage、RCS、SMS、语音、FaceTime 及 Find My 的统一通信 API。

Linq 宣布完成 2700 万美元融资，并推出整合 iMessage、RCS、SMS、Voice 以及 FaceTime 的统一通信 API。此举使开发者及 AI 智能体（agent）无需开发或依赖独立 App，即可直接通过原生移动端消息客户端与用户进行全功能交互。

原生富媒体协议支持：API 深度接入 iMessage 与 RCS 协议，直接开放 emoji 回应、语音备注、富媒体文件传输、输入状态指示（typing indicators）及群聊接口，同时内置针对 SMS 和 Voice 的自动降级（Fallback）机制。
SLA 性能与吞吐量：官方披露系统 API 响应延迟低于 120ms，并提供 99.95% 的运行正常时间（Uptime）保证。
计费模式重构：针对 iMessage 与 RCS 渠道，明确放弃传统云通信厂商的“按条计费（pay-per-message）”模式，以控制高并发智能体对话的成本。
安全与数据隔离：平台已通过 SOC 2 Type II 认证，所有用户数据及传输过程强制端到端加密，Linq 服务端无法访问或读取通信明文。
开发者工具链：提供一键安装 CLI 工具链及免费 Sandbox 环境，支持与现有开发栈集成，最快可在 5 分钟内完成消息工作流部署。

( @elliott__potter)

02 有亮点的产品

1、老年人语音伴侣 Sam 亮相，集成认知监测与家庭安全网

针对高龄群体居家养老痛点，AI 初创公司推出专用语音伴侣 Sam。该产品定位为集「健康监测、安全预警、社交连接」于一体的智能中枢，旨在通过自然语音交互降低老年人使用复杂科技的门槛。

核心功能与技术特性

主动式健康监测： 区别于被动响应的语音助手，Sam 在日常对话中嵌入了认知游戏。系统通过分析交互数据生成认知趋势报告，帮助家属在早期识别认知障碍（如失智症）的潜在迹象。
通信与安全闸门： Sam 提供简化的通话与短信接口。为防范针对老年人的电信诈骗，系统设有核准名单机制，仅允许经授权的家属或联系人通过 Sam 与老人沟通。
全方位看护集成：
- 用药提醒： 可配置个性化用药计划并进行定时提醒。
- 异常告警： 系统识别到异常行为或未响应时，会向家属端 App 推送实时警报。
- 每日简报： 家属可通过配套的 iOS 应用查看老人的每日活动摘要和认知状态追踪。

在 2026 年银发经济与 AI 结合的趋势下，Sam 的方案体现了从「工具型助手」向「情感+医疗监护智能体」的转型。其核心竞争力在于将非侵入式的认知筛查与封闭式通信安全相结合，在保护隐私的同时，通过低频但关键的数据采集为异地子女提供确定性的监护支持。

( @audrlo@X)

2、昆仑万维 Mureka V8，最新登顶 Artificial Analysis 音乐模型榜

昆仑万维 Mureka V8，最新登顶 Artificial Analysis 音乐模型榜，一举超越 Suno V4.5、Udio v1.5 Allegro 等国际主流模型。获得人声（vocal）、器乐（instrument）双料第一

先来欣赏一段由以下提示词所生成的歌曲：

晚风民谣，温柔女声，黄昏乡间的慢时光

听完以后，你会发现。它所生成的，已经不再是一段「AI 音频片段」，而是一首结构完整、情感连贯、制作精良的「歌」。

Mureka 的技术进化呈现出清晰的三阶特征：

第一阶段（1.0-2.0）：基础闭环与验证。 初始版本聚焦于端到端（End-to-End）架构的工程可行性，通过「天工」平台上线中英文版本，解决了生成音频的稳定性问题，实现了从「内测实验」向「可用模型」的初步转化。
第二阶段（3.0-4.0）：基模稳定性与听感重塑。 2024 年 8 月，模型迎来大规模版本迭代。研发团队通过构建超大规模基础模型，解决了生成的规模化一致性难题，并在采样率与音质纯净度上实现了肉眼可见的级数跃迁，支撑起独立产品的市场准入。
第三阶段（5.0-V8）：多语种工程化与逻辑化创作。 随后的版本补齐了多语种工程化能力，支撑其全球化分发。

进入 2025 年，Mureka 引入了 MusiCoT （Music Chain-of-Thought） 技术与系统化的强化学习闭环：

区别于早期的概率性生成，模型开始具备「预见性」创作能力，能预先规划音乐框架、配器方案及情绪起伏，按逻辑链条推进音频渲染。在最新的 V8 版本中，模型对物理声学的模拟达到了新高度。其生成的音频在人声呼吸感（Breathiness）、乐器空间成像（Spatial Imaging）及自动化混音（Auto-mixing）专业度上，均表现出超越 Suno 与 Udio 的技术指标。

Mureka V8 的登顶预示着 AI 音乐已完成从「生成旋律」到「产出可发布成品」的质变。其核心竞争力在于将大语言模型的推理能力（MusiCoT）深度耦合进音频扩散架构，为专业音乐制作提供了高确定性、高保真度的底层生产力工具。

@量子位

03 有态度的观点

1、Claude Code 产品经理：模型快速进化下，传统产品经理方法论正在失效

近日，Claude Code 产品经理 Catherine Wu（@_catwu）在 X 发文，分享了她在 AI 模型高速迭代背景下产品经理角色的演变方式。

Wu 指出，传统 PM 工作方法建立在「底层技术相对稳定」的假设之上，但在当前模型能力持续跃迁的环境中，这一前提已不复存在。

她表示，随着模型更新频率与能力边界不断变化，产品管理流程也必须同步调整。在具体实践层面，她总结了四项原则：

以短周期冲刺替代长期路线图：她认为，长期 Roadmap 难以与高频小规模实验竞争。Claude Desktop 上的 Claude Code、AskUserQuestion 工具以及 todo list 功能，均源自团队内部想法，通过快速原型构建与内部测试验证后迅速上线；
以 Demo 与评估取代文档：借助 Claude Code 与 Opus 4.6，构建可运行原型的门槛已显著降低。相比撰写规格文档，直接呈现可交互的产品形态不仅更快，也更接近最终体验；
随新模型发布重新审视功能清单：她建议在每次模型升级后，回顾此前因技术限制而搁置的功能设想，并再次测试其可行性，同时移除为弥补旧模型能力不足而构建的额外「脚手架」；
保持系统简洁：她强调，在 Agentic 系统中，复杂度会显著放大失败风险，产品设计应优先寻找「最简单可行方案」。

(@APPSO)

04 社区黑板报

招聘、项目分享、求助……任何你想和社区分享的信息，请联系我们投稿。（加微信 creators2022，备注「社区黑板报」）

1、桌游玩家招募！全球首款 AI 主题桌游《Talk With》线下开玩，北京 AI 原点社区 Party Nights 见！

我们又要举办 AI 主题桌游《Talk With》的试玩会啦！就在中关村 AI 原点社区，人工智能主题日 Party Nights！

时间：3 月 28 日（周六）晚上 18:00—21:00

地点：海淀区中关村东路 8 号东升大厦 A 座 F1

报名方式：点击小程序链接报名即可

除了深度沉浸《Talk With》桌游体验，我们更有幸邀请到深耕 Physical AI 与 Voice Agent 领域的资深专家、现任行业头部 AI 硬件公司产品经理 Trent。他将带来关于对话式 AI 产品逻辑与技术趋势的深度分享，带你穿透行业迷雾，精准把握技术前沿。

在这里，不仅是脑力碰撞，更是实战推演。玩中学，学中玩——这场兼具前沿洞察与交互趣味的活动，期待你的加入！

如何玩《Talk With》？

AI 主题桌游《Talk With》（中文名：聊天能解决的事儿）支持 3-5 人同场竞技，每局约 40 分钟。

你会遇到一些意想不到甚至无厘头的需求场景（aka 不同的目标用户群体）

你要灵活地调配初始资金，通过三轮竞拍逐步构建技术壁垒。

接下去在路演环节，你将展示产品愿景，并通过投票机制获得市场认可！

你还会遇到带来「命运大逆转」的「市场行情卡」，或让你起死回生，或是半路遇到黑天鹅！

每一局游戏最终将诞生两位冠军：

「独角兽奖」授予资本最雄厚的创业者，

「金伯乐奖」则属于最具投资眼光的伯乐。

无论你是策略大师还是演讲达人，这里都有你大展身手的舞台！

报名试玩会，成为早期玩家

活动流程安排

17:30-18:00 入场签到
18:00-18:30 主题分享：Physical AI+Voice Agent 技术和产品趋势分享；分享人：Trent，Physical AI 与 Voice Agent 领域的资深专家、现任行业头部 AI 硬件公司产品经理。
18:30-18:45 桌游规则讲解和分组
18:45-19:45 第一回桌游
19:45-20:45 第二回桌游
20:45-21:00 自由交流

参与要求

玩家无需任何 AI 或桌游经验，我们会提供现场教学指导。

假如你对 AI 技术或创业，尤其是 AI 语音方向的技术或创业感兴趣，请加入我们。

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

作者提示: 个人观点，仅供参考