估值 7 亿美元,Wispr 要做语音操作系统,还要自研 ASR;马斯克:实时视频理解和生成是未来丨日报

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@鲍勃

01 有话题的技术

1、MOSS-Speech:无需文本引导语音生成,实现了真「语音到语音」交互

现有的端到端语音助手在生成阶段仍需要先生成文本作为「引导」,再生成语音,导致生成效率降低,生成的声音内容范围也受到文本瓶颈的限制。

MOSS-Speech 的发布标志着我们迈入了「真语音到语音交互」的新阶段。MOSS-Speech 不再需要预先生成文本引导语音生成,同时还保留了强大的推理能力,从而实现了真正的「语音到语音」交互。

MOSS-Speech 的部分 Demo 样例如下:


  • 真正的语音到语音(Speech-to-Speech)大模型


MOSS-Speech 摆脱了传统级联方案(下图左)和需要生成文本指导后续语音生成的端到端方案(下图中)对于文本的依赖,实现了无需文本引导,直接理解并生成语音词符(下图右)。模型能够捕捉并生成语调、情绪、笑声等非文字要素,实现更自然、更高效的交流。




  • 为高效模态对齐设计的新架构

MOSS-Speech 基于预训练文本 LLM,通过模态分层+两阶段预训练,让模型在继承文本 LLM 的推理能力与知识的同时,加入了原生的语音理解与生成能力,有效避免了模态冲突,实现了高效模态对齐。



  • 双模态原生支持

不仅能「听懂」和「说出」语音,还处理文本输入输出,实现跨模态交互。支持语音提问 → 语音回答,文字提问 → 语音回答,语音提问 → 文字回答,文字提问 → 文字回答。

MOSS-Speech 在语音到语音评测指标上取得了 SOTA 成绩。

  • 预训练模型评测结果



  • 指令微调模型评测结果


视频 Demo:

https://moss-speech.open-moss.com/

在线 Demo:

https://huggingface.co/spaces/fnlp/MOSS-Speech

GitHub 主页:

https://github.com/OpenMOSS/MOSS-Speech

技术报告:

https://github.com/OpenMOSS/MOSS-Speech/blob/main/papers/MOSS-Speech%20Technical%20Report.pdf


(@开放苔藓)


2、Meta 宣布推出一个全新的模型家族 SAM 3D

Meta 宣布推出一个全新的模型家族 SAM 3D,并发布两款 3D 模型,分别为用于物体和场景重建的 SAM 3D Objects 和用于人体和体型估计的 SAM 3D Body。先来看看效果,SAM 3D 系列模型能在用户点击图像中的元素后,直接从 2D 图像中扣出一个 3D 模型,无论是物体还是人像,都能被准确重建。重建后的模型 360 度旋转,也基本看不出破绽。

SAM 的全称是 Segment Anything Model,直译过来就是「分割一切」模型。Meta 之前已经开源过 SAM 1、SAM 2 这两款 2D 图像分割模型,是该领域标杆作品。SAM 3D 系列模型发布的同日,此前在 ICLR 大会审稿期间就引发热议的 SAM 3 也迎来正式发布。SAM 3 图像分割模型的亮点是引入了「可提示概念分割」的新功能。在过去,大部分图像分割模型只能根据有限的预设标签对图像进行分割,而 SAM 3 让用户可以输入「狗」、「大象」、「斑马」这样具体的标签,或「动物」这样的整体概念,甚至是「穿着黑色外套、戴着白色帽子的人」这样的描述,并完成图像分割,这大幅提升了图像分割模型的通用性。


SAM 3 还具有超快的推理速度,在单张英伟达 H200 GPU 上,SAM 3 能在 30 毫秒左右识别一张包含超过 100 个可检测物体的图片。SAM 3 的发布,让英伟达开发者技术总结 Nader Khalil 直呼:「这可能就是计算机视觉的 ChatGPT 时刻,强大的分割功能意味着用户只要点击一下就能训练计算机视觉模型,太疯狂了。」


Meta 已经直接拿 SAM 3D Objects 和 Sam 3 开始卖货了。Facebook Market 现在提供新的「房间视图」功能,让用户可在购买家具前直观地感受家居装饰品在空间中的风格和合适度。


目前,SAM 3D 系列模型和 SAM 3 都已经能在 Meta 最新打造的 Segment Anything Playground 中进行体验。SAM 3D 的训练和评估数据、评估基准、模型检查点、推理代码以及参数化人类模型都已经开源,SAM 3 开源了模型检查点、评估数据集和微调代码。


SAM 3D 博客(内含论文、开源链接):

https://ai.meta.com/blog/sam-3d/


SAM 3 博客(内含论文、开源链接):

https://ai.meta.com/blog/segment-anything-model-3/


(@智东西)




02 有亮点的产品


1、语音笔记应用 Wispr 新融资估值达 7 亿美元,要做语音主导的操作系统

不同留存时间段的 Wispr Flow 用户使用语音输入和键盘输入的比例


语音 AI 公司「Wispr」在其语音听写应用「Wispr Flow」取得高速增长后,再次获得由 Notable Capital 领投的 2500 万美元新融资,公司投后估值达到 7 亿美元。这笔融资距其上一轮融资仅过去数月,凸显了市场对高效语音输入工具的强劲需求,也标志着「Wispr」将加速自研模型和跨平台扩展,与「OpenAI」等巨头在人才和技术上展开竞争。


  • 强劲的资本势头与市场验证:继 6 月获得 3000 万美元融资后,「Wispr」迅速完成新一轮 2500 万美元融资,总融资额达 8100 万美元。知名投资人 Hans Tung(曾投资 Airbnb、Slack、Anthropic)将作为观察员加入董事会,证明了其商业模式和增长潜力已获顶级资本认可。

  • 爆炸性的用户增长指标:自 6 月以来,「Wispr Flow」实现了 40% 的月度复合增长,用户基数同比增长 100 倍,并保持着 70% 的 12 个月用户留存率。在企业市场,其服务已触达 270 家财富 500 强公司,并以每周新增 125 家企业客户的速度扩张。

  • 自研模型与技术护城河:为提升用户体验,「Wispr」正投入资源构建自有的个性化自动语音识别(ASR)模型。公司声称,其当前模型的错误率约为 10%,显著低于「OpenAI」的「Whisper」(27%)和苹果的原生转录(47%)。

  • 从工具到平台的战略演进:「Wispr」的愿景不止于听写工具,而是成为一个『语音主导的操作系统』,旨在通过语音自动化工作流(如回复邮件)。公司正在通过封闭 API 与企业伙伴测试其技术,并计划明年向更广泛的开发者开放。

  • 市场竞争格局:在听写和语音输入领域,「Wispr」面临包括 YC 支持的「Willow」和「Aqua」、Every 的「Monologue」、以及「Typeless」、「TalkTastic」、「Superwhisper」、「BetterDictation」在内的多家竞争对手。


(@TechCrunch)


2、Simbie AI:用 AI 语音智能体赋能小型医疗实践,重塑独立行医模式


Simbie AI 推出一款与 EHR(电子健康记录)深度集成的 AI 语音智能体,专为中小型医疗实践设计。该解决方案旨在大幅提升运营效率,降低人力成本,让独立诊所能与大型医疗系统竞争。自 2025 年 1 月上线以来,Simbie AI 已实现 83 倍的营收增长,获客成本为零,并显著改善了诊所的医患沟通和营收状况。


  • AI 语音智能体赋能医疗运营: Simbie AI 开发了临床智能、全天候多语言的 AI 语音智能体,能够处理预约、保险咨询等行政任务,以及处方续订、结果告知、术后随访等临床沟通,极大减轻了人工负担。

  • EHR 深度集成,构筑竞争壁垒: 该产品与广泛应用于 90% 独立实践的 EHR 系统建立了深度工作流程集成,提高了用户粘性,构筑了显著的切换成本。

  • 营收增长与成本优化: 自 2025 年 1 月上线以来,Simbie AI 实现了 83 倍的营收增长,且获客成本为零。它能帮助诊所将员工与医师的比例降低三分之一,并挽回因漏接电话(高达 20-40%)而损失的 10-20% 营收。

  • 医生主导,信任驱动的增长模式: Simbie AI 由医生和临床运营专家创立,通过建立医生领导者的信任,实现了零获客成本的病毒式传播,尤其在小型医疗实践群体中。

  • 支持独立行医运动: 在医生倦怠和医院整合趋势下,Simbie AI 提供的通信层解决方案,让独立诊所能够获得匹敌大型医院的运营效率,有力支持了医生选择独立行医的模式。


(@Y Combinator)


3、豆包输入法正式版上线:内置情境感知引擎,支持中英文混合滑行输入

11 月 21 日消息,豆包输入法 1.0 正式版现已上线,目前可在小米应用商店下载,内置情境感知引擎,支持滑行输入增强版,整体观感较为符合现代审美。 


据介绍,豆包输入法搭载情境感知引擎,可基于聊天场景自动切换词库,例如工作中可以自动联想专业术语,日常聊天则可以推荐表情包,还拥有「滑行输入增强版」,支持中英文混合滑行输入,号称可在 5.5 英寸的屏幕上实现每分钟 62 字的输入速度。 


经过实测后发现,该输入法目前基础功能较为完善,可选 9 键和 26 键两种布局,支持调整键盘高度,还带有语音转文字功能,但目前并没有切换方言语种按钮,实测显示该输入法可以识别出粤语,但是在转文字过程中存在错字现象。此外,该输入法还拥有智能输入、基础输入两种模式,其中前者会将部分输入信息、应用场景等传输至云端处理;而后者则不会收集任何个人信息,使用本地资源进行输入,但确实语音转文字、翻译等功能。



(@极客公园、IT 之家)



03 有态度的观点 


1、马斯克:实时视频的理解和生成是未来

埃隆·马斯克在社交媒体上明确指出:「实时视频的理解与生成是未来。」

这一前瞻性观点与 xAI 此番发布的招聘信息高度契合。xAI 的「omni」团队正致力于打造超越文本界限的 AI 体验,旨在实现跨越图像、视频和音频等多模态的内容理解与生成。此次招聘的工程师将成为推动这一宏伟愿景实现的决定性力量,他们将深度参与实时视频和多模态世界模型的开发,覆盖数据处理、模型构建、训练优化、服务部署及产品化等全流程。


(@elonmusk@X)




04 社区黑板报 

招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)

1、招聘实习生丨加入我们,共建 RTE 开发者社区

RTE 开发者社区·运营实习生(实时互动 / Voice AI 方向,本招聘长期有效)

地点:北京·朝阳区望京南/上海·杨浦区五角场

这份实习将给你带来:

产品与技术成长:深入学习垂类 AI 产品从技术到落地的全生命周期,构建全面的产品视角。

社区运营实战:与高潜力的开发者和创业者深度交流,共同探索行业前沿;并亲身体验顶级 AI 大会,拓展行业视野。

【你的职责】

  1. Voice AI / RTE 情报官:每日关注 Voice AI /实时互动领域的最新动态,提炼整理并分享行业洞察,定期撰写学习笔记,帮助团队和社区保持信息前沿。

  2. 社区连接者:负责 RTE 领域开发者、初创企业等核心群体的社群运营,主动建立并深化联系,鼓励并协助他们融入社区,共同维护社区的活力与生态。

  3. 活动协作者:深度参与 RTE Open Day、Meetup、Dev Talk 等线上线下活动的全流程运营,包括前期策划、中期执行、后期复盘,从实践中提升组织和协调能力。

  4. 行业洞察者:协助开展 RTE 相关行业及应用场景调研、产品竞争力分析,整理相关资料,形成对业务的深入理解和独到见解。

【希望你】

  1. 本科及以上学历,商业、技术、产品、媒体专业或经验背景优先,具备良好英文能力;

  2. 对 RTE / Voice AI 有浓厚兴趣和求知欲;具备优秀的信息收集与整合能力,乐于快速学习新事物,并具备严谨的逻辑思维。

  3. 能保证每周至少 4 天的工作时间,持续 3 个月以上。

【薪资】

180-220 元/天

【投递方式】

实习地点北京或上海,请将简历发送至 rtedevcommunity@gmail.com ;邮件标题请注明:【社区运营实习-姓名-学校-毕业年份-到岗日期-城市】

图片


阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片


注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    关键词
    // 相关帖子
    Coming soon...
    • 0
    估值 7 亿美元,Wispr 要做语音操作系统,还要自研 ASR;马斯克:实时视频理解和生成是未来丨日报RTRTE_Dev_Comm