英伟达入资 11Labs,黄仁勋:语音 AI 带来情感、共情和联结;Qwen3-TTS-Flash:多语言,多音色,多方言丨日报

图片


开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@Jerry fong,@鲍勃

01有话题的技术

1、英伟达投资ElevenLabs,黄仁勋:语音 AI 带来情感、共情和联结

NVIDIA 宣布,已对 AI 语音技术初创公司 ElevenLabs 进行战略投资。

关键亮点

  • 战略投资 AI 语音:NVIDIA 确认已投资 AI 语音技术公司 ElevenLabs,CEO Jensen Huang 与 ElevenLabs 联合创始人 Mati Staniszewski 进行了公开对话,强调了 ElevenLabs 在其数字声音传播中的重要性。

  • 技术与艺术的融合:Jensen Huang 评论称,ElevenLabs 的文本转语音(Text-to-Speech)技术已超越单纯的技术层面,达到了「艺术」的高度,并能够传递情感和同理心。

  • 美英科技联盟强化:此次投资恰逢美英两国在 AI 和量子计算领域签署 420 亿美元技术协议,旨在加强两国在尖端科技领域的合作与研究。

  • NVIDIA 在英布局加速:该投资是 NVIDIA 20 亿英镑对英国 AI 初创企业承诺的一部分,NVIDIA 还计划在英国投资高达 110 亿英镑建设「AI 工厂」,部署 120,000 块 GPU,以支持英国本土 AI 发展。

  • ElevenLabs 快速崛起:ElevenLabs 由前 Google 和 Palantir 员工创立于 2022 年,已成为 AI 语音领域的领导者,最新估值达到 66 亿美元。

ElevenLabs 是一家估值 66 亿美元的初创公司,其技术已广泛应用于游戏、媒体和无障碍工具等领域。NVIDIA 的投资细节未公开,但表明了双方的战略合作意向。

相关链接:

https://www.startuphub.ai/ai-news/funding-round/2025/nvidia-backs-ai-voice-pioneer-elevenlabs-amid-us-uk-lockstep-tech-alliance/

( @StartupHub.ai)

2、Qwen3-Omni 震撼发布:阿里开源首个端到端全模态 AI 大模型,性能直逼 GPT-4o
图片

阿里巴巴 Qwen 团队近日震撼发布其最新一代 30B 参数「全模态 AI 大模型」Qwen3-Omni。这是全球首个真正端到端的开源多模态模型,能够同时处理文本、图像、音频、视频输入,并实时生成流式文本和自然语音输出。其性能在多项评测中已直逼 OpenAI 的 GPT-4o 和 Google 的 Gemini 2.5 Pro,为多模态 AI 交互树立了新标杆,并支持免费商用。

关键亮点

  • 「端到端」全模态能力: Qwen3-Omni 采用统一架构,直接处理文本(支持 119 种语言)、图像、音频(支持 19 种语言)和视频(最长 30 分钟)输入,并实时生成流式文本和语音输出(支持 10 种语言),彻底摆脱传统「拼接式」多模态模型的性能折衷和高延迟问题。

  • 性能比肩顶尖闭源模型: 在 36 个音频和音视频基准测试中,Qwen3-Omni 斩获 22 项 SOTA(State-Of-The-Art,最优性能),与 Gemini 2.5 Pro 比肩。其多语言翻译能力支持 28 种语言互译,噪声环境下语音识别的词错误率 (WER) 低于 8%。

  • Thinker-Talker 双核架构: 模型核心采用创新 Thinker-Talker 双核架构,无缝整合多模态理解 (Thinker 模块) 和实时生成 (Talker 模块)。Talker 模块实现低至 211 毫秒的首包延迟,接近人类对话的实时性。

  • 大规模开源与免费商用: Qwen3-Omni 基于 Apache 2.0 许可开源,提供三种 30B 参数模型变体:Qwen3-Omni-30B-A3B-Instruct(优化指令跟随)、Qwen3-Omni-30B-A3B-Thinking(增强复杂推理)和 Qwen3-Omni-30B-A3B-Captioner(低幻觉音频字幕生成),为开发者和企业提供免费使用和定制化能力。

  • 高效率与鲁棒性: 通过端到端联合优化训练,模型在处理长达 30 分钟视频、复杂噪声语音等场景下展现出强大鲁棒性和高效语义提取能力,同时在单模态任务上保持了与 Qwen2.5 相当的性能,真正做到「全能无短板」。

Qwen3-Omni 已正式发布,并提供三种 30B 参数模型变体供下载,基于 Apache 2.0 许可开源免费商用。用户可通过 Qwen Chat 在线试用,在 GitHub 或 Hugging Face 下载模型,并通过阿里云 API 服务进行接入。

相关链接:

https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Captioner

https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Thinking

https://huggingface.co/Qwen/Qwen3-Omni-30B-A3B-Instruct

Github: 

https://github.com/QwenLM/Qwen3-Omni/blob/main/assets/Qwen3_Omni.pdf

(@AI 密码花园)

3、Qwen 团队发布旗舰级多语言多音色文本转语音模型 Qwen3-TTS-Flash

Qwen 团队近日推出其旗舰级多语言多音色文本转语音模型 Qwen3-TTS-Flash。该模型凭借卓越的稳定性和相似度,在 seed-tts-eval 与 MiniMax 多语测试集上均取得了 SOTA 级别的领先地位。

Qwen3-TTS-Flash 定位为一款顶级语音合成模型,采用统一架构,支持 17 种高保真音色,每种音色均可输出 10 种语言。语言覆盖范围广泛,包括普通话、英式和美式英语及其他地区口音,以及法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语等。此外,模型还特别支持 9 种汉语方言,如闽南语、吴语、粤语、四川话、北京话、南京话、天津话、陕西话。

在性能方面,该模型表现出色:单并发首包延迟最低可达 97ms,满并发首包延迟为 420ms,RTF(实时因子)最低可达 0.30。其功能也十分全面,具备自动语气调节、鲁棒的文本处理以及混合语种生成能力,确保了高品质的语音输出。

目前,Qwen3-TTS-Flash 已同步上线 API、Demo 以及多段音频样例。

相关链接:

https://qwen.ai/blog?id=b4264e11fb80b5e37350790121baf0a0f10daf82&from=research.latest-advancements-list(@通义千问)



02有亮点的产品

1、「Plaud AI 录音笔」高调入华:海外营收破亿
图片

Plaud 三款产品已在电商平台开启预售(图源/企业)

曾经不在中国大陆地区销售的智能录音笔 Plaud,最终还是回到内地。

9 月 22 日,Plaud 在新品发布会上正式宣布进入中国内地市场,其中,Plaud Note Pro 新品售价为 1299 元;同期开启预售的还包括 Plaud NotePin S 与 Plaud Note 两款产品,分别售价是 1249 元与 1149 元。

从价格来看,三款产品定价均高于国内同类竞品。此前钉钉此前发布的 DingTalk A1 青春版定价 499 元、旗舰版定价 799 元,出门问问的 TicNote 电商平台售价为 999 元。

Plaud 这次发布会规模不大,没有太多讨论度,显得很低调,与其在海外的高举高打对比鲜明。

就在 7 月,官方数据显示,Plaud 全球销量已突破百万台规模,它首创的 AI 录音产品在过去两年中每年均实现十倍级的增长,截至 2024 年 11 月年化收入达到 1 亿美金。对此,硬氪曾做过相关报道。

Plaud 之所以短期内迅速起量,源于其发现了一个不被重视的细分需求。在海外市场,一个典型的刚需场景是,苹果手机用户线上会议频繁,却缺乏与之匹配的一体化录音转写方案。用户往往需要先用设备录音,再借助第三方软件转写和分析。Plaud 所提供的「硬件+软件」服务可以有效填补上述市场空白。

更重要的是,Plaud 在 AI 大模型出现后立刻作出反馈,吃下第一波 AI 录音机的流量。

Plaud 虽然生于深圳,但过去几年都在大陆以外的地区和国家销售。

这是一个很明智的决定。当前中国支持实时转写的 AI 录音笔占比超 35%;语音转写技术转化率从 2021 年的 68%、到 2025 年已升至 87%,支持 35 种语言的实时翻译功能成为高端设备标配。

这也意味着,Plaud 所面对的用户不需要被教育。他们选择众多,对产品功能、体验及性价比均抱有极为明确的高要求。

在多个强势品牌盘踞、竞争高度内卷面前,新公司想做内地市场的硬件生意,难度直接会拉到最高级。

这次 Plaud 的中国发布会表现克制,也显示出更多试探的意味。Plaud 很清楚,凭借其海外市场的表现,自己在小圈子里享有一定的品牌溢价优势。但想在内地市场真正突围,胜算未知。(@硬氪)

2、Google TV 集成「Gemini」:实现自由对话与个性化娱乐学习

谷歌宣布,其旗下的大型语言模型 Gemini 正式进驻 Google TV,为用户带来全新的智能交互体验。首批搭载该功能的设备为 TCL QM9K 系列,并计划在今年内陆续扩展至 Google TV StreamerWalmart onn。 4K Pro,以及 2025 年款海信和 TCL 等多款电视型号。

用户只需通过「Hey Google」语音指令或按下遥控器上的麦克风键,即可唤醒 Gemini,与电视进行自然、流畅的对话。Gemini 不仅能提供个性化的服务,如剧集回顾跨口味选片,还能进行技能教学 YouTube 视频推荐,极大地丰富了家庭娱乐场景。

谷歌强调,此项更新是在现有 Google Assistant 功能基础上进行的扩展,所有原有的指令将全部保留。Gemini 主要增强了自然对话多轮推理能力,并针对大屏环境进行了专项优化。此项服务目前面向部分国家和语言地区开放,且仅限 18 岁以上用户使用。

相关链接:

https://blog.google/products/google-tv/gemini-google-tv/( @Google Blog)



03有态度的观点 

1、Luma CEO:好莱坞已死,唯有 AI 能救
图片

Luma AI 创始人兼 CEO Amit Jain 近日在接受采访时表示,如果好莱坞继续沿着当前的道路发展,「它已经死了」。

他批评当下电影产业过于保守,只依赖少数系列作品反复拍摄,缺乏对新故事和新形式的探索。

Jain 指出,如今动辄耗资 1 亿至 2 亿美元的大制作,让行业不敢冒险尝试更多创意,「为什么一年只拍 5 到 10 部所谓的大片,而不是尝试 50 到 100 个新点子?」

他认为,生成式 AI 能以更低成本、更高效率帮助创作者验证想法,让电影重新触碰「新奇感」。

据此前报道,Ray 3 是首个具备推理能力的生成式视频模型,能够根据创作者在静态画面上的标注(如箭头方向)生成对应的动态效果。

Jain 表示,这项技术将为影视创作带来全新可能性,让行业重拾创新精神。(@ APPSO)

图片


阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

素材来源官方媒体/网络新闻

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    关键词
    // 相关帖子
    Coming soon...
    • 0
    英伟达入资 11Labs,黄仁勋:语音 AI 带来情感、共情和联结;Qwen3-TTS-Flash:多语言,多音色,多方言丨日报RTRTE_Dev_Comm