融资2700万美元,Linq推出统一通信API;Figure创始人注资1亿美元成立Hark,研发多模态模型和非穿戴硬件丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@koki、@鲍勃
01 有话题的技术
1、通义推出 PrismAudio:声画同频,音效随行
PrismAudio 是一个视频生成音频(Video-to-Audio)框架。
其研究重点是 环境音/音效合成,比如马蹄声、风雨声、金属敲击声等与画面内容同步的背景声音。
作为首个将强化学习与思维链紧密结合的视频生成环境音框架。简单来说,其工作原理是教会模型「先思考,再发声」,并且有四位「老师」同时给它打分。
语义老师盯着画面,教模型认准「这是马蹄声,不是鸟叫声」。
时序老师拿着秒表,监督声音和动作必须严丝合缝。
美学老师挑剔音质,要求声音自然、有层次、不刺耳。
空间老师听声辨位,检查声音是不是从该来的方向来。
生成音频后,怎么判断它做得好不好?光靠「像不像真实声音」这一个标准,仍然会让模型再次陷入「顾此失彼」的老问题。所以,我们给每个老师配了一个奖励函数,让四个老师各自打分,互不干扰:
语义老师用MS-CLAP 打分,检查声音和画面内容是否匹配。
时序老师用 Synchformer 打分,精准测量声音和动作是否同步。
美学老师用 Meta Audiobox Aesthetics 打分,从清晰度、动态、丰富度等多个维度评估音质。
空间老师用 StereoCRW 打分,验证左右声道信息是否与画面中的声源位置一致。
四个分数加在一起,形成一个综合评分。模型的目标,就是不断调整自己的生成策略,让这个总分越来越高。这样模型不会被单一标准牵着走,而是必须同时满足四个的要求,哪个维度都不掉队。
想让 AI 做好视频配音,关键不在于堆参数、堆数据,而在于让模型学会像人一样思考和权衡。「拆解任务、多维反馈、高效优化」这套方法论不仅适用于视频配音,也为其他多目标生成任务提供了新思路。
HuggingFace 链接:
https://huggingface.co/FunAudioLLM/PrismAudio
(@通义实验室)
2、Smallest AI 发布 Lightning V3/V3.1 模型:原生 44.1kHz 采样率,支持 5-15 秒零样本跨语种声音克隆
Smallest AI 正式发布专为对话智能体设计的 TTS 模型 Lightning V3 及其克隆版本 V3.1。该模型针对流式生成场景下的实时语块(real-time chunks)输出进行优化,在解决多语种混合(如 Spanglish 词级切换)自然度降级问题的同时,开放了底层发音控制能力。
5-15秒零样本声音克隆:Lightning V3.1 支持仅通过 5-15 秒的音频素材生成生产级声音克隆。该功能无需微调(fine-tuning),单次克隆即可跨 15 种语言进行合成,并原生保留源音频的非规则特征(如停顿节奏、呼吸声与强调习惯)。
原生 44.1kHz 与信道适配:模型底层原生输出 44.1kHz 音频,同时针对不同受限带宽或部署场景提供纯净的降采样(downsample)能力,支持单模型输出 24kHz、16kHz WAV,以及专为传统电话系统优化的 8kHz mulaw 格式。
发音字典(Pronunciation dictionaries)接口:针对医疗术语、品牌名等分布外(OOD)词汇导致的置信度下降问题,提供发音字典覆盖层。开发者可通过硬编码强制指定预期输出,绕过模型自动推理,确保垂直领域专有名词的 100% 准确率。
对话场景评估与数据表现:在基于 Seed-TTS 评估语料库及 LLM-as-judge 框架的流式生成测试中,其单词错误率(WER)为 5.38%;官方披露数据显示,在整体自然度盲测中对标 OpenAI gpt-4o-mini-tts 的胜率约为 76%。
Lightning V3 及 V3.1 闭源模型现已正式上线并开放 API 接入,采用按需付费(Pay-as-you-go)模式,无基础订阅费或最低消费门槛。
( @kamath_sutra@X)
3、Figure 创始人个人注资 1 亿美元成立 Hark:研发端到端多模态模型与非穿戴 AI 硬件
连续创业者 Brett Adcock 创立的全新 AI 实验室 Hark 宣布投入 1 亿美元研发原生多模态模型及其配套硬件。该系统主打软硬件底层融合、具备长记忆(persistent memory)及实时音视觉交互能力。首批 AI 模型定于今年夏季发布,试图通过重构底层设备交互,替代现有的 App/Web 访问层。
算力与基建部署:Hark 将于今年 4 月正式启用由数千张 Nvidia GPU 组成的新算力集群,以支持其端到端多模态模型的训练。
跨平台具身数据协同:Hark 的模型目前已在同属 Adcock 旗下的双足机器人公司 Figure 的设备上进行训练,直接获取物理世界的交互数据,但两家公司保持独立运营,无合并计划。
明确排除穿戴式硬件形态:设计总监 Abidur Chowdhury(前 Apple iPhone Air 工业设计负责人)明确表示,Hark 的硬件产品不会采用智能眼镜、AI Pin 等在人类与世界间「增加物理夹层」的穿戴式形态。
团队与资金规模:Hark 目前拥有 45 名研发人员,核心工程师与设计师来自 Meta AI、Apple 和 Tesla,并已获得创始人 1 亿美元的个人种子轮资金。
首批 AI 基础模型预计将于今年夏季发布(预计闭源),硬件终端发布时间与定价暂未披露。
(@TechCrunch)
4、Linq 获 2700 万美元融资并发布统一消息 API:原生集成 iMessage 与 RCS,延迟低于 120ms
通信集成平台 Linq 今日宣布完成 2700 万美元融资,并同步推出集成 iMessage、RCS、SMS、语音、FaceTime 及 Find My 的统一通信 API。
Linq 宣布完成 2700 万美元融资,并推出整合 iMessage、RCS、SMS、Voice 以及 FaceTime 的统一通信 API。此举使开发者及 AI 智能体(agent)无需开发或依赖独立 App,即可直接通过原生移动端消息客户端与用户进行全功能交互。
原生富媒体协议支持:API 深度接入 iMessage 与 RCS 协议,直接开放 emoji 回应、语音备注、富媒体文件传输、输入状态指示(typing indicators)及群聊接口,同时内置针对 SMS 和 Voice 的自动降级(Fallback)机制。
SLA 性能与吞吐量:官方披露系统 API 响应延迟低于 120ms,并提供 99.95% 的运行正常时间(Uptime)保证。
计费模式重构:针对 iMessage 与 RCS 渠道,明确放弃传统云通信厂商的“按条计费(pay-per-message)”模式,以控制高并发智能体对话的成本。
安全与数据隔离:平台已通过 SOC 2 Type II 认证,所有用户数据及传输过程强制端到端加密,Linq 服务端无法访问或读取通信明文。
开发者工具链:提供一键安装 CLI 工具链及免费 Sandbox 环境,支持与现有开发栈集成,最快可在 5 分钟内完成消息工作流部署。
( @elliott__potter)
02 有亮点的产品
1、老年人语音伴侣 Sam 亮相,集成认知监测与家庭安全网
针对高龄群体居家养老痛点,AI 初创公司推出专用语音伴侣 Sam。该产品定位为集「健康监测、安全预警、社交连接」于一体的智能中枢,旨在通过自然语音交互降低老年人使用复杂科技的门槛。
核心功能与技术特性
主动式健康监测: 区别于被动响应的语音助手,Sam 在日常对话中嵌入了认知游戏。系统通过分析交互数据生成认知趋势报告,帮助家属在早期识别认知障碍(如失智症)的潜在迹象。
通信与安全闸门: Sam 提供简化的通话与短信接口。为防范针对老年人的电信诈骗,系统设有核准名单机制,仅允许经授权的家属或联系人通过 Sam 与老人沟通。
全方位看护集成:
用药提醒: 可配置个性化用药计划并进行定时提醒。
异常告警: 系统识别到异常行为或未响应时,会向家属端 App 推送实时警报。
每日简报: 家属可通过配套的 iOS 应用查看老人的每日活动摘要和认知状态追踪。
在 2026 年银发经济与 AI 结合的趋势下,Sam 的方案体现了从「工具型助手」向「情感+医疗监护智能体」的转型。其核心竞争力在于将非侵入式的认知筛查与封闭式通信安全相结合,在保护隐私的同时,通过低频但关键的数据采集为异地子女提供确定性的监护支持。
( @audrlo@X)
2、昆仑万维 Mureka V8,最新登顶 Artificial Analysis 音乐模型榜
昆仑万维 Mureka V8,最新登顶 Artificial Analysis 音乐模型榜,一举超越 Suno V4.5、Udio v1.5 Allegro 等国际主流模型。获得人声(vocal)、器乐(instrument)双料第一
先来欣赏一段由以下提示词所生成的歌曲:
晚风民谣,温柔女声,黄昏乡间的慢时光
听完以后,你会发现。它所生成的,已经不再是一段「AI 音频片段」,而是一首结构完整、情感连贯、制作精良的「歌」。
Mureka 的技术进化呈现出清晰的三阶特征:
第一阶段(1.0-2.0):基础闭环与验证。 初始版本聚焦于端到端(End-to-End)架构的工程可行性,通过「天工」平台上线中英文版本,解决了生成音频的稳定性问题,实现了从「内测实验」向「可用模型」的初步转化。
第二阶段(3.0-4.0):基模稳定性与听感重塑。 2024 年 8 月,模型迎来大规模版本迭代。研发团队通过构建超大规模基础模型,解决了生成的规模化一致性难题,并在采样率与音质纯净度上实现了肉眼可见的级数跃迁,支撑起独立产品的市场准入。
第三阶段(5.0-V8):多语种工程化与逻辑化创作。 随后的版本补齐了多语种工程化能力,支撑其全球化分发。
进入 2025 年,Mureka 引入了 MusiCoT (Music Chain-of-Thought) 技术与系统化的强化学习闭环:
区别于早期的概率性生成,模型开始具备「预见性」创作能力,能预先规划音乐框架、配器方案及情绪起伏,按逻辑链条推进音频渲染。在最新的 V8 版本中,模型对物理声学的模拟达到了新高度。其生成的音频在人声呼吸感(Breathiness)、乐器空间成像(Spatial Imaging)及自动化混音(Auto-mixing)专业度上,均表现出超越 Suno 与 Udio 的技术指标。
Mureka V8 的登顶预示着 AI 音乐已完成从「生成旋律」到「产出可发布成品」的质变。其核心竞争力在于将大语言模型的推理能力(MusiCoT)深度耦合进音频扩散架构,为专业音乐制作提供了高确定性、高保真度的底层生产力工具。
@量子位
03 有态度的观点
1、Claude Code 产品经理:模型快速进化下,传统产品经理方法论正在失效
近日,Claude Code 产品经理 Catherine Wu(@_catwu)在 X 发文,分享了她在 AI 模型高速迭代背景下产品经理角色的演变方式。
Wu 指出,传统 PM 工作方法建立在「底层技术相对稳定」的假设之上,但在当前模型能力持续跃迁的环境中,这一前提已不复存在。
她表示,随着模型更新频率与能力边界不断变化,产品管理流程也必须同步调整。在具体实践层面,她总结了四项原则:
以短周期冲刺替代长期路线图:她认为,长期 Roadmap 难以与高频小规模实验竞争。Claude Desktop 上的 Claude Code、AskUserQuestion 工具以及 todo list 功能,均源自团队内部想法,通过快速原型构建与内部测试验证后迅速上线;
以 Demo 与评估取代文档:借助 Claude Code 与 Opus 4.6,构建可运行原型的门槛已显著降低。相比撰写规格文档,直接呈现可交互的产品形态不仅更快,也更接近最终体验;
随新模型发布重新审视功能清单:她建议在每次模型升级后,回顾此前因技术限制而搁置的功能设想,并再次测试其可行性,同时移除为弥补旧模型能力不足而构建的额外「脚手架」;
保持系统简洁:她强调,在 Agentic 系统中,复杂度会显著放大失败风险,产品设计应优先寻找「最简单可行方案」。
(@APPSO)
04 社区黑板报
招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)
1、桌游玩家招募!全球首款 AI 主题桌游《Talk With》线下开玩,北京 AI 原点社区 Party Nights 见!
我们又要举办 AI 主题桌游《Talk With》的试玩会啦!就在中关村 AI 原点社区,人工智能主题日 Party Nights!
时间:3 月 28 日(周六)晚上 18:00—21:00
地点:海淀区中关村东路 8 号东升大厦 A 座 F1
报名方式:点击小程序链接报名即可
除了深度沉浸《Talk With》桌游体验,我们更有幸邀请到深耕 Physical AI 与 Voice Agent 领域的资深专家、现任行业头部 AI 硬件公司产品经理 Trent。他将带来关于对话式 AI 产品逻辑与技术趋势的深度分享,带你穿透行业迷雾,精准把握技术前沿。
在这里,不仅是脑力碰撞,更是实战推演。玩中学,学中玩——这场兼具前沿洞察与交互趣味的活动,期待你的加入!
如何玩《Talk With》?
AI 主题桌游《Talk With》(中文名:聊天能解决的事儿)支持 3-5 人同场竞技,每局约 40 分钟。
你会遇到一些意想不到甚至无厘头的需求场景(aka 不同的目标用户群体)
你要灵活地调配初始资金,通过三轮竞拍逐步构建技术壁垒。
接下去在路演环节,你将展示产品愿景,并通过投票机制获得市场认可!
你还会遇到带来「命运大逆转」的「市场行情卡」,或让你起死回生,或是半路遇到黑天鹅!
每一局游戏最终将诞生两位冠军:
「独角兽奖」授予资本最雄厚的创业者,
「金伯乐奖」则属于最具投资眼光的伯乐。
无论你是策略大师还是演讲达人,这里都有你大展身手的舞台!
报名试玩会,成为早期玩家
活动流程安排
17:30-18:00 入场签到
18:00-18:30 主题分享:Physical AI+Voice Agent 技术和产品趋势分享;分享人:Trent,Physical AI 与 Voice Agent 领域的资深专家、现任行业头部 AI 硬件公司产品经理 。
18:30-18:45 桌游规则讲解和分组
18:45-19:45 第一回桌游
19:45-20:45 第二回桌游
20:45-21:00 自由交流
参与要求
玩家无需任何 AI 或桌游经验,我们会提供现场教学指导。
假如你对 AI 技术或创业,尤其是 AI 语音方向的技术或创业感兴趣,请加入我们。

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
作者提示: 个人观点,仅供参考