端侧语音分离模型 Subtle 获 600 万美元种子融资;Memories.ai 与高通合作,让手机拥有多模态记忆丨日报

图片


开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@Jerry fong,@鲍勃

01有话题的技术

1、Inworld TTS 升级:WebSockets、时间戳对齐、位列 TTS Leaderboard  榜首
图片

Inworld TTS 发布了全面且重磅的更新,旨在响应开发者最迫切的需求。此次升级引入了 WebSocket 支持、时间戳对齐等核心功能,并大幅提升了性能与语音质量,使 Inworld TTS 在 Artificial Analysis TTS Leaderboard 上位列榜首。这些改进将为开发者提供前所未有的控制力,以更低延迟、更逼真的方式构建交互式 AI 智能体语音体验,无论是游戏角色、消费者应用还是呼叫中心智能体。

  • 性能跃居行业榜首: Inworld TTS 1 Max 在 Artificial Analysis Text to Speech Leaderboard 上荣获第一名,证明其在真实感和性能上均达到领先水平。整体响应速度提升约 15%,基础设施迁移使美国和欧洲用户内部往返时间减少约 50 毫秒。

  • 核心功能:WebSocket 流式传输: 引入 WebSocket API 提供持久连接和全面的流式控制,实现更快的启动和更平滑的实时对话。支持上下文管理、智能缓冲(可配置合成起始时间),以及动态控制(mid-stream 更新语音参数,处理用户打断)。

  • 核心功能:时间戳对齐: 提供精确的音频时间信息(词级别和字符级别),完美支持唇形同步动画、卡拉 OK 式字幕高亮、触发游戏内动作、跟踪用户打断等高级交互场景。目前英语非流式模式已支持。

  • 语音质量与多语言优化: 新 TTS 模型提供更清晰的发音、改进的语音克隆(跨语言保持音调、语速、情感),以及更准确的多语言输出(减少口音不匹配)。同时新增俄语支持,总计支持 12 种语言。

相关链接:

https://inworld.ai/blog/tts-custom-pronunciation-timestamps-websockets

(@Inworld 官方博客)

2、Subtle Computing 获 600 万美元种子轮融资:以「设备定制」语音分离模型

加州初创公司 Subtle Computing 宣布完成 600 万美元种子轮融资,由 Entrada Ventures 领投。该公司正通过其专有的语音分离模型,解决嘈杂环境下人声捕获的关键难题。这项技术对于快速增长的语音 AI 智能体产品和服务(如 AI 智能体会议记录、语音听写、智能硬件)至关重要,它通过训练设备特定的声学模型,而非通用模型,显著提升了语音 AI 智能体 在真实世界环境中的准确性和性能,从而赋能新一代语音交互体验。
  • 解决核心痛点——嘈杂环境下的语音捕获: 针对当前语音 AI 智能体产品在咖啡馆、嘈杂办公室等复杂环境中表现不佳,以及传统云端处理效率低下的问题。

  • 创新技术:设备定制化语音分离模型: 公司开发了端到端语音分离模型,能够即使在极端噪音环境中也能准确理解人声。其关键创新在于训练针对特定设备的声学模型,而非通用模型,实现数量级的性能提升和个性化解决方案。

  • 高效性能与本地化处理: 语音分离模型体积小(仅几兆字节),延迟低(100 毫秒),可在设备上直接运行。通过分离模型,其转录模型能获得更准确的文本输出。

  • 600 万美元种子轮融资: 由 Entrada Ventures 领投,Amplify Partners、Abstract Ventures 及多位知名天使投资人(包括 Twitter 联合创始人 Biz Stone、Pinterest 联合创始人 Evan Sharp 等)参投,彰显市场对其前景的看好。

( @TechCrunch)

3、Meta 系 95 后华人明星团队,创业一年就与高通达成合作,让手机拥有多模态记忆

由华人创业者沈俊潇(Shawn Shen)创办的 Memories.ai,刚刚发布了 LVMM 2.0,(大型视觉记忆模型 Large Visual Memory Model),并宣布了与高通的合作,LVMM 将于 2026 年在高通处理器上原生运行。

Memories.ai 于 2024 年在硅谷创办,专注于开发 AI 的视觉记忆能力。2025 年 7 月,Memories.ai 宣布完成 800 万美金种子轮融资,由 Susa Ventures 领投,三星风投(Samsung Next)、Fusion Fund 等知名机构跟投。

前不久,Memories.ai 宣布引入 Eddy Wu 作为公司的首席 AI 负责人,Eddy Wu 此前在 Meta 工作五年,负责 Meta AI 应用的 GenAI 研究。

LM 让文本搜索与分析变得智能且高效,使用户可以快速在成百上千份文档中找到关键信息。但视频不同——它密集、无结构,而且被锁定在时间轴上。团队仍需手动快进、依赖文件名,或寄希望于字幕能准确捕捉「眼睛看到的」内容。大多数工具只索引音频或缩略图,却遗漏了动作、物体与上下文。

没有「视觉记忆层」,AI 便无法在无数帧画面中精确定位或回答更高层次的问题。

为了解决这一问题,Memories.ai 开创了视觉记忆模型,在 2025 年 8 月发布了第一代 LVMM 大型视觉记忆模型。三个月后,LVMM 2.0 发布,模型在性能表现上与第一代相同,但参数量减少了 10 倍,更适合端侧运行。

LVMM 2.0 通过将原始视频转化为设备端的结构化记忆,解决了视频可搜索性问题。它能对帧进行编码与压缩,建立支持毫秒级检索的索引。用户可用自然语言或图像线索发问,并直接跳转到精确片段。原生运行于高通处理器之上能显著降低延迟、减少云端成本,并确保数据本地化以强化安全性。模型将视频、音频与图像融合,使结果具备上下文;统一的记忆格式确保体验在手机、摄像头、边缘系统等设备间一致。开发者可通过 SDK 与参考设计快速接入捕捉、索引与检索功能,而无需重建后端。随着更多视频被索引,LVMM 的召回率与精准度也会持续提升。

LVMM 2.0 的实际应用包括:

  • AI 相册: 在设备上组织并调取个人视频记忆。

  • 智能眼镜与可穿戴设备: 显著增强 AI 的回忆与识别能力。

  • 安防系统: 帮助摄像头实时理解并响应。

  • 机器人: 赋予现实世界中的机器人更强的环境理解力。

「通过将高通在边缘计算、连接性和设备端 AI 的专业能力,与 Memories.ai 的创新 LVMM 技术相结合,我们正在重塑机器的感知、学习与记忆方式。」高通公司产品管理副总裁兼生成式 AI/机器学习负责人 Vinesh Sukumar 表示,「这一合作将催生出更加灵敏、具备上下文理解力的 AI 平台,能够长期保留视觉信息、识别模式,并在边缘网络环境下稳定运行。我们正在加速实现共同的目标——让智能更贴近真实世界的应用。」

(@ Founder Park)



02有亮点的产品

1、前 Meta 员工创业,发布 AI 录音与对话智能戒指

11 月 5 日 Sandbar 公司发布了一款名为 Stream Ring 的 AI 智能戒指,公司表示,Stream Ring 旨在「捕捉当下的想法」,作为「自我扩展」的工具。佩戴者可以「在人群中窃窃私语」,戒指将记录并转录他们给自己的笔记或对话。根据这些录音,Stream 将在随附的应用程序中创建笔记,最初在 iOS 上可用。

AI 录音硬件之前也有过不少产品,包括 Plaud AI、音诺、360、出门问问、钉钉等不同公司的产品,Stream Ring AI 录音的场景显然不是针对长时间的通话或者办公录音场景,而是纪录当下的特别想法,这些想法往往是不轻易且转瞬即逝,可能是一段音符、一个 idea 或者当下的心情。该产品还通过个性化 AI 助手「Inner Voice」实现「通过深思熟虑的问题和智能的回答」与用户互动,用户在产品设置过程中可以录制的自己声音,这种对话更像是倾听内在的声音。

当然该戒指还支持音乐控制功能,实现播放暂停、切歌及音量调节。通过按下按钮激活麦克风来捕获语音笔记。该公司向用户保证,麦克风「并不总是在监听」,并且数据是加密的。其他功能通过电容式触摸传感器和触觉控制。例如,通过点击响铃一次,您可以中断录音或开始或暂停音乐。轻点两次即可转到下一首歌曲,轻扫手势可调节音量。

在续航上,标称「全天可用」,充电器是一个带有 U 形支架的小扁平圆盘,包裹在表带的侧面;外观设计上,Stream Ring 戒指外部为铝制,内部为黑色树脂带,所有这些都是防水的。戒指外部的一个略高的平台装有一个椭圆形的纽扣,两侧都有小孔。

目前 Stream Ring 已开放预购,基础款售价 249 美元(银款)、299 美元(金款),预计 2026 年夏季在美国发货。在订阅服务上,Stream 的免费版本有无限的笔记和聊天;专业版解锁无限互动和早期功能,预购该产品的用户将获得为期三个月的专业订阅,之后他们可以以每月 10 美元的价格延长订阅。

(@ AING 硬迹)

2、Caddy 推出电脑语音界面:解放双手,实现跨应用 AI 智能体自动化

由前 Loom AI 套件负责人 Connor 和 Rajiv 创立的 Caddy,正式推出电脑语音界面。这款创新产品旨在解决用户在多应用间频繁切换、重复性工作耗时的痛点,通过语音命令实现跨所有应用程序的工作自动化。Caddy 能够理解屏幕上下文并执行操作,同时提供全球性的语音听写功能,从而重新定义人机交互方式,让工作流程更加流畅高效。

  • 解决「应用迷宫」痛点: 针对当前工作流中应用繁杂、上下文切换频繁,以及现有语音助手无法处理真实工作场景的问题,Caddy 提供一体化解决方案。

  • 桌面级语音操作平台: Caddy 作为桌面驻留的语音界面,允许用户通过语音完全操作电脑,摆脱键盘鼠标的束缚,无需在应用间来回跳转。

  • 目标用户:高效率追求者: Caddy 主要面向创始人、运营人员、效率极客以及「语音优先」一代,帮助他们节省重复性工作时间。

(@ ycombinator)

3、HeyGen LiveAvatar 发布:超逼真实时互动

HeyGen 近日发布了其 LiveAvatar 产品。该产品是与富有远见的客户合作开发的,这些客户已将其应用于塑造人工智能的未来。LiveAvatar 能够提供超逼真、实时互动的虚拟形象,从而按需大规模地实现面对面的人机对话体验。

在其发布视频中,硅谷创业教父 Reid Hoffman 演示了 LiveAvatar 如何重新定义人机互动。

相关链接: 

http://liveavatar.com

( @TryLiveAvatar)


03有态度的观点 

1、曼大教授:AI 无法替代人类创造力与情感联结
图片

据新浪科技报道,英国曼彻斯特大学动物学教授、神经科学家马修·科布(Matthew Cobb)在日前的一次访谈中表示,迄今尚未看到任何 AI 系统产出真正具有创造性的成果。

他强调,人类大脑与计算机在本质上是两种完全不同的系统,一个是数十亿年演化的生物产物,另一个是短短几十年内设计出的人工结构。

科布指出,AI 的确能够在数据处理方面发挥重要作用,尤其是在神经科学研究中帮助识别潜在规律。

但他认为,AI 并不能成为解释人脑的模型,更无法替代人类的创造力。其原因在于,AI 的生成依赖既有数据和模式识别,而人类则能够想象从未存在过的事物。

在谈及社会应用时,科布提醒,AI 的效率提升主要体现在说明书编写、医学影像辅助筛查等任务,但其缺乏理解能力,不应承担最终判断。

同时,他还强调,许多人类工作价值并非仅在智力层面,例如护理、环卫、行李搬运等岗位,短期内难以被机器取代

科布直言,未来即便机器人在照护工作中表现出耐心与稳定,他仍希望由人类护理人员提供帮助,因为人与人之间的情感联结无法由机器替代。他指出,这不仅是技术问题,更涉及社会与政治层面的挑战。

(@ APPSO)

2、奥特曼:如果 OpenAI 不是首家由 AI 担任 CEO 的大型公司,他将感到「羞耻」
图片

据《商业内幕》报道,OpenAI CEO Sam Altman 在播客「Conversations with Tyler」中表示,如果 OpenAI 不是首家由 AI 担任 CEO 的大型公司,他将感到「羞耻」。

Altman 强调,他已为 AI 接替自己做好准备,并认为只需「个位数年」,AI 就能胜任公司主要部门的管理工作

Altman 在采访中提出,他经常思考「AI 需要达到什么条件,才能比人类更好地管理公司」。他指出,虽然这一目标尚需时间,但进程正在加速。

在谈及个人未来时,Altman 表示,一旦 AI 接替 CEO 职位,他计划专注于农场生活。他透露自己在加州和夏威夷拥有多处房产,并曾在农场驾驶拖拉机、采收作物。

此外,Altman 也承认短期内 AI 将摧毁大量工作岗位,但他认为,长期来看,类似历次技术革命,人类将找到全新的工作和创造方式。

(@ APPSO)


04社区黑板报 

招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)

1、招聘实习生丨加入我们,共建 RTE 开发者社区
图片

RTE 开发者社区·运营实习生(实时互动 / Voice AI 方向,本招聘长期有效)

地点:北京·朝阳区望京南/上海·杨浦区五角场

这份实习将给你带来:

产品与技术成长:深入学习垂类 AI 产品从技术到落地的全生命周期,构建全面的产品视角。

社区运营实战:与高潜力的开发者和创业者深度交流,共同探索行业前沿;并亲身体验顶级 AI 大会,拓展行业视野。


【你的职责】

  1. Voice AI / RTE 情报官:每日关注 Voice AI /实时互动领域的最新动态,提炼整理并分享行业洞察,定期撰写学习笔记,帮助团队和社区保持信息前沿。

  2. 社区连接者:负责 RTE 领域开发者、初创企业等核心群体的社群运营,主动建立并深化联系,鼓励并协助他们融入社区,共同维护社区的活力与生态。

  3. 活动协作者:深度参与 RTE Open Day、Meetup、Dev Talk 等线上线下活动的全流程运营,包括前期策划、中期执行、后期复盘,从实践中提升组织和协调能力。

  4. 行业洞察者:协助开展 RTE 相关行业及应用场景调研、产品竞争力分析,整理相关资料,形成对业务的深入理解和独到见解。

【希望你】

  1. 本科及以上学历,商业、技术、产品、媒体专业或经验背景优先,具备良好英文能力;

  2. 对 RTE / Voice AI 有浓厚兴趣和求知欲;具备优秀的信息收集与整合能力,乐于快速学习新事物,并具备严谨的逻辑思维。

  3. 能保证每周至少 4 天的工作时间,持续 3 个月以上。

【薪资】

180-220 元/天

【投递方式】

实习地点北京或上海,请将简历发送至 rtedevcommunity@gmail.com ;邮件标题请注明:【社区运营实习-姓名-学校-毕业年份-到岗日期-城市】


图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

素材来源官方媒体/网络新闻

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    关键词
    // 相关帖子
    Coming soon...
    • 0
    端侧语音分离模型 Subtle 获 600 万美元种子融资;Memories.ai 与高通合作,让手机拥有多模态记忆丨日报RTRTE_Dev_Comm