Qwen3-TTS 升级,多音色、多语种和多方言;KaniTTS:开源实时语音小模型,消费级 GPU 运行丨日报

图片


开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@瓒an、@鲍勃

01 有话题的技术


1、Qwen3-TTS 全面升级,49 种音色 + 10 种语言 + 9 种方言

图片


Qwen3-TTS 是支持多音色、多语种和多方言的旗舰语音合成模型,致力于实现稳定、自然和高效的语音生成,目前可通过 Qwen API 访问。

主要改进:

  • 更加丰富的音色支持:Qwen3-TTS 提供超过 49 种高品质音色,涵盖不同性别、年龄、地域特征与角色设定,满足多样化的场景需求。撒娇搞怪-茉兔,陪伴感满满的青梅竹马-小野杏,傲娇率性的女汉子-十三 ,严厉老师-墨讲师 ,智慧老者-沧明子,萝莉萌妹-萌小姬等众多角色等你探索。

  • 多语种多方言能力持续增强:Qwen3-TTS 支持中文、英文、德语、意大利语、葡萄牙语、西班牙语、日语、韩语、法语、俄语等 10 大主流语言,在 MiniMax TTS multilingual test set 上,平均词错误率(WER)优于 MiniMax、ElevenLabs 及 GPT-4o-Audio-Preview。支持更多音色的方言生成,包括普通话、闽南语、吴语、粤语、四川话、北京话、南京话、天津话和陕西话,真实还原地方口音特色与语言神韵。

  • 韵律/语速更加自然,更拟人化:相比于上一个版本,Qwen3-TTS 自适应根据文本调节语速和韵律的能力大幅提高,拟人化程度逼近真人。

(@Qwen Team)

2、NineNineSix 开源 KaniTTS:实时语音生成模型,性能比肩商业级产品
图片


吉尔吉斯斯坦 AI 初创公司 NineNineSix 发布了开源的文本转语音(TTS)模型 KaniTTS。该模型在消费级 GPU 上实现了接近实时的语音生成,性能可与 ElevenLabs、OpenAI 等商业模型媲美,并采用 Apache 2.0 许可证完全免费提供。

  • 实时性与性能: 在消费级 NVIDIA RTX 5080 GPU 上,KaniTTS 可以在 1 秒内生成 15 秒的自然语音,实现真正的实时性能,无需企业级硬件。

  • 高表现力语音: KaniTTS 不仅能朗读文本,还能捕捉语音的意义、情感、节奏和细微差别,生成听起来自然、生动的语音。

  • 轻量化架构: 结合了高效的基于 Token 的生成机制和轻量级神经网络声码器(neural vocoder),实现了低延迟和高保真度。

  • 多语言支持: 当前支持英语、德语、韩语、阿拉伯语、中文和西班牙语,并计划增加吉尔吉斯语和日语。

  • 开源与可访问性: 采用 Apache 2.0 许可证,允许用户自由研究、改编和部署,降低了先进语音 AI 的门槛。

  • 参数量: 370M 参数。

  • 开发与支持: 由 NineNineSix 公司开发,并在吉尔吉斯共和国高科技园区(HTP)生态系统内完成。

KaniTTS 模型已开源,可通过 Hugging Face 下载(已下载超过 15,000 次)。未来计划支持语音克隆功能。

Hugging Face: 

https://huggingface.co/nineninesix

(@TechIntelPro / NineNineSix)


3、被 Gemini3 整怕了,曝 GPT-5.2 本周发布
图片

据 The Verge 援引知情人士消息称,OpenAI 计划最早于本周初发布 GPT-5.2 模型, 这一时间表较原定的 12 月下旬计划大幅提前。目前公司已将发布日期暂定为 12 月 9 日。

消息人士称, 此次提前发布直接源于竞争对手施加的压力。


Google 上月推出的 Gemini 3 模型在多项评测排行榜中领先, 其表现甚至令 OpenAI CEO Sam Altman 感到震惊。知情人士表示,GPT-5.2 的性能提升将有望缩小 Google 此前建立的领先优势。

最近,X 博主 @iruletheworldmo 也分享了关于这款基础模型的基准测试成绩。不过,真实性尚未得到确认,请谨慎看待。

除了新模型发布,OpenAI 正在调整产品战略方向。未来数月内,ChatGPT 的改进重点将从增加新奇功能转向提升 ChatGPT 的响应速度、系统稳定性和个性化定制能力。

( @APPSO)



02 有亮点的产品

1、Meta XR 产品线大地震:全面拥抱 AI 可穿戴设备,高端 MR 头显延至 2027,Quest 4 聚焦游戏定位

图片


Meta 近日泄露的内部备忘录显示,公司正在大幅调整其扩展现实产品路线图。原计划于 2026 年下半年发布的超轻薄混合现实头显 Phoenix/Puffin 将推迟至 2027 年上半年上市,而新一代专注于沉浸式游戏的 Quest 4 已确认正在开发中。


备忘录揭示了 Meta 在 XR 和可穿戴设备战略上的重大转变:放缓高端 MR 头显进度以「打磨细节」,同时转向更务实、更注重盈利的产品策略。


Meta 战略重心从「元宇宙优先」转向「AI 硬件优先」,计划对 Reality Labs 部门削减高达 30%预算,2026 年发布限量版可穿戴设备 Malibu 2。


收购 AI 硬件初创公司 Limitless 并从苹果挖来人机界面设计副总裁艾伦·戴伊等高管,加速 AI 可穿戴设备布局。


(@三次方 AIRX、@NathieVR@X)


2、ElevenLabs 推出「对话式读书」功能,用户可与书籍进行实时语音互动

ElevenLabs 于 12 月 6 日通过其官方社交账号发布全新互动阅读功能,旨在为用户打造个性化的「语音读书俱乐部」。该功能依托其 ElevenLabs Agents 平台,允许读者与书籍进行语音对话,实现更深度的阅读体验。

用户可通过配套应用程序「ElevenReader」向书籍直接提问,内容涵盖人物、情节、背景、主题等任意方向。系统提供的虚拟叙述者能够记忆对话上下文,并严格依据书籍原文进行回应,帮助读者在阅读过程中随时探索故事细节。

官方示例界面展示了以《傲慢与偏见》为对象的对话场景,界面提示「向我提问…《傲慢与偏见》」,背景采用渐变粉紫色设计,突出沉浸式互动氛围,并强调让读者「走进最喜欢的故事」。

https://elevenreader.io/


(@ElevenLabs@X)



3、众擎老板亲自挑战机器人,被一脚踹翻

近期,众擎机器人官方发布视频称,团队十分好奇机器人 T800 一脚踹到人身上到底有啥感觉。对此「用老板做了个实验测试下」。


从众擎团队公布的视频来看,T800 对准众擎机器人 CEO 赵同阳伸腿后,赵同阳整个人向后「飞」出去。


挨踹后的赵同阳直呼:「太暴力了、太残暴了。如果不戴护具没人能撑得住,绝对会骨折。」有网友表示:「你们员工太狠了,让老板亲自上阵。多少带了点私人恩怨。」


据了解,众擎 T800 身高 1.73 米,自重 75 千克,系众擎发布的首款「打工机器人」,售价为 18 万元起。


( @APPSO)


03 有态度的观点 

1、AI 教父 Hinton 预言:Google Gemini 将超越 OpenAI GPT,引领 AI 市场

「AI 教父」 Geoffrey Hinton 近期表示,Google 凭借 Gemini 3、自研芯片、强大的数据资源和研究团队,正在超越 OpenAI。Hinton 认为 Google 凭借其综合优势,必将赢得这场 AI 领域的双雄之争,并且认为 Google「早该赢了」。


  • Gemini 3 Pro 的多模态能力: Google 发布了 Gemini 3 Pro,该模型在视觉理解方面取得突破,能从「看见」进化到「理解」,在文档、空间、屏幕和视频理解方面表现卓越。

    • 文档理解: 具备高精度 OCR、复杂结构解析(如手写表格、数学公式)及「反渲染」能力,可将文档还原为结构化代码。在 CharXiv 基准测试中超越人类基线。

    • 空间理解: 能指向图像中的具体位置,并进行 2D 图像到「世界模型」的关键一步;开放词汇指代能力使其能理解物体及其意图,应用于机器人和 AR/XR 场景。

    • 屏幕理解: 显著提升了对桌面和移动设备界面的理解能力,支持计算机使用型智能体执行重复任务、QA 测试、UX 分析等。

    • 视频理解: 在高帧率(高于 1 FPS)和复杂因果关系推理方面取得进展,能实现长视频的总结和应用生成。

  • Google 的综合优势: Hinton 指出 Google 在模型(Gemini 3、Nano Banana Pro)、自研芯片(TPU)、数据量、研究团队以及庞大的数据中心方面拥有显著优势。

  • 市场竞争格局: Gemini 3 的发布带动了 Google 市值的增长。市场情报显示,Gemini 在下载增速、月活增速和用户使用时长方面正全面超越 ChatGPT,尽管 ChatGPT 仍拥有庞大的用户基数。

  • Google 的策略转变: Hinton 提及 Google 曾因对品牌声誉的担忧而变得谨慎,例如早期聊天机器人的发布顾虑,以及近期 AI 图像生成器出现的问题。但 Gemini 3 的发布标志着其在多模态理解上迈出了关键一步。

  • OpenAI 的挑战: ChatGPT 的增长势头趋缓,面临 Gemini、Claude 等竞品的压力。OpenAI CEO Sam Altman 已发出「红色警报」,要求团队聚焦提升 ChatGPT 的核心体验,以巩固用户飞轮优势。

Gemini 3 Pro 已发布,并在多项基准测试中刷新纪录。Gemini 产品正通过 Android 系统内置等方式扩大其全球市场份额。

(@新智元)


图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

作者提示: 个人观点,仅供参考​

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    关键词
    // 相关帖子
    Coming soon...
    • 0
    Qwen3-TTS 升级,多音色、多语种和多方言;KaniTTS:开源实时语音小模型,消费级 GPU 运行丨日报RTRTE_Dev_Comm