Qwen3-TTS 升级,多音色、多语种和多方言;KaniTTS:开源实时语音小模型,消费级 GPU 运行丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@瓒an、@鲍勃
01 有话题的技术
1、Qwen3-TTS 全面升级,49 种音色 + 10 种语言 + 9 种方言
Qwen3-TTS 是支持多音色、多语种和多方言的旗舰语音合成模型,致力于实现稳定、自然和高效的语音生成,目前可通过 Qwen API 访问。
主要改进:
更加丰富的音色支持:Qwen3-TTS 提供超过 49 种高品质音色,涵盖不同性别、年龄、地域特征与角色设定,满足多样化的场景需求。撒娇搞怪-茉兔,陪伴感满满的青梅竹马-小野杏,傲娇率性的女汉子-十三 ,严厉老师-墨讲师 ,智慧老者-沧明子,萝莉萌妹-萌小姬等众多角色等你探索。
多语种多方言能力持续增强:Qwen3-TTS 支持中文、英文、德语、意大利语、葡萄牙语、西班牙语、日语、韩语、法语、俄语等 10 大主流语言,在 MiniMax TTS multilingual test set 上,平均词错误率(WER)优于 MiniMax、ElevenLabs 及 GPT-4o-Audio-Preview。支持更多音色的方言生成,包括普通话、闽南语、吴语、粤语、四川话、北京话、南京话、天津话和陕西话,真实还原地方口音特色与语言神韵。
韵律/语速更加自然,更拟人化:相比于上一个版本,Qwen3-TTS 自适应根据文本调节语速和韵律的能力大幅提高,拟人化程度逼近真人。
(@Qwen Team)
2、NineNineSix 开源 KaniTTS:实时语音生成模型,性能比肩商业级产品
吉尔吉斯斯坦 AI 初创公司 NineNineSix 发布了开源的文本转语音(TTS)模型 KaniTTS。该模型在消费级 GPU 上实现了接近实时的语音生成,性能可与 ElevenLabs、OpenAI 等商业模型媲美,并采用 Apache 2.0 许可证完全免费提供。
实时性与性能: 在消费级 NVIDIA RTX 5080 GPU 上,KaniTTS 可以在 1 秒内生成 15 秒的自然语音,实现真正的实时性能,无需企业级硬件。
高表现力语音: KaniTTS 不仅能朗读文本,还能捕捉语音的意义、情感、节奏和细微差别,生成听起来自然、生动的语音。
轻量化架构: 结合了高效的基于 Token 的生成机制和轻量级神经网络声码器(neural vocoder),实现了低延迟和高保真度。
多语言支持: 当前支持英语、德语、韩语、阿拉伯语、中文和西班牙语,并计划增加吉尔吉斯语和日语。
开源与可访问性: 采用 Apache 2.0 许可证,允许用户自由研究、改编和部署,降低了先进语音 AI 的门槛。
参数量: 370M 参数。
开发与支持: 由 NineNineSix 公司开发,并在吉尔吉斯共和国高科技园区(HTP)生态系统内完成。
KaniTTS 模型已开源,可通过 Hugging Face 下载(已下载超过 15,000 次)。未来计划支持语音克隆功能。
Hugging Face:
https://huggingface.co/nineninesix
(@TechIntelPro / NineNineSix)
3、被 Gemini3 整怕了,曝 GPT-5.2 本周发布
据 The Verge 援引知情人士消息称,OpenAI 计划最早于本周初发布 GPT-5.2 模型, 这一时间表较原定的 12 月下旬计划大幅提前。目前公司已将发布日期暂定为 12 月 9 日。
消息人士称, 此次提前发布直接源于竞争对手施加的压力。
Google 上月推出的 Gemini 3 模型在多项评测排行榜中领先, 其表现甚至令 OpenAI CEO Sam Altman 感到震惊。知情人士表示,GPT-5.2 的性能提升将有望缩小 Google 此前建立的领先优势。
最近,X 博主 @iruletheworldmo 也分享了关于这款基础模型的基准测试成绩。不过,真实性尚未得到确认,请谨慎看待。
除了新模型发布,OpenAI 正在调整产品战略方向。未来数月内,ChatGPT 的改进重点将从增加新奇功能转向提升 ChatGPT 的响应速度、系统稳定性和个性化定制能力。
( @APPSO)
02 有亮点的产品
1、Meta XR 产品线大地震:全面拥抱 AI 可穿戴设备,高端 MR 头显延至 2027,Quest 4 聚焦游戏定位
Meta 近日泄露的内部备忘录显示,公司正在大幅调整其扩展现实产品路线图。原计划于 2026 年下半年发布的超轻薄混合现实头显 Phoenix/Puffin 将推迟至 2027 年上半年上市,而新一代专注于沉浸式游戏的 Quest 4 已确认正在开发中。
备忘录揭示了 Meta 在 XR 和可穿戴设备战略上的重大转变:放缓高端 MR 头显进度以「打磨细节」,同时转向更务实、更注重盈利的产品策略。
Meta 战略重心从「元宇宙优先」转向「AI 硬件优先」,计划对 Reality Labs 部门削减高达 30%预算,2026 年发布限量版可穿戴设备 Malibu 2。
收购 AI 硬件初创公司 Limitless 并从苹果挖来人机界面设计副总裁艾伦·戴伊等高管,加速 AI 可穿戴设备布局。
(@三次方 AIRX、@NathieVR@X)
2、ElevenLabs 推出「对话式读书」功能,用户可与书籍进行实时语音互动
ElevenLabs 于 12 月 6 日通过其官方社交账号发布全新互动阅读功能,旨在为用户打造个性化的「语音读书俱乐部」。该功能依托其 ElevenLabs Agents 平台,允许读者与书籍进行语音对话,实现更深度的阅读体验。
用户可通过配套应用程序「ElevenReader」向书籍直接提问,内容涵盖人物、情节、背景、主题等任意方向。系统提供的虚拟叙述者能够记忆对话上下文,并严格依据书籍原文进行回应,帮助读者在阅读过程中随时探索故事细节。
官方示例界面展示了以《傲慢与偏见》为对象的对话场景,界面提示「向我提问…《傲慢与偏见》」,背景采用渐变粉紫色设计,突出沉浸式互动氛围,并强调让读者「走进最喜欢的故事」。
https://elevenreader.io/
(@ElevenLabs@X)
3、众擎老板亲自挑战机器人,被一脚踹翻
近期,众擎机器人官方发布视频称,团队十分好奇机器人 T800 一脚踹到人身上到底有啥感觉。对此「用老板做了个实验测试下」。
从众擎团队公布的视频来看,T800 对准众擎机器人 CEO 赵同阳伸腿后,赵同阳整个人向后「飞」出去。
挨踹后的赵同阳直呼:「太暴力了、太残暴了。如果不戴护具没人能撑得住,绝对会骨折。」有网友表示:「你们员工太狠了,让老板亲自上阵。多少带了点私人恩怨。」
据了解,众擎 T800 身高 1.73 米,自重 75 千克,系众擎发布的首款「打工机器人」,售价为 18 万元起。
( @APPSO)
03 有态度的观点
1、AI 教父 Hinton 预言:Google Gemini 将超越 OpenAI GPT,引领 AI 市场
「AI 教父」 Geoffrey Hinton 近期表示,Google 凭借 Gemini 3、自研芯片、强大的数据资源和研究团队,正在超越 OpenAI。Hinton 认为 Google 凭借其综合优势,必将赢得这场 AI 领域的双雄之争,并且认为 Google「早该赢了」。
Gemini 3 Pro 的多模态能力: Google 发布了 Gemini 3 Pro,该模型在视觉理解方面取得突破,能从「看见」进化到「理解」,在文档、空间、屏幕和视频理解方面表现卓越。
文档理解: 具备高精度 OCR、复杂结构解析(如手写表格、数学公式)及「反渲染」能力,可将文档还原为结构化代码。在 CharXiv 基准测试中超越人类基线。
空间理解: 能指向图像中的具体位置,并进行 2D 图像到「世界模型」的关键一步;开放词汇指代能力使其能理解物体及其意图,应用于机器人和 AR/XR 场景。
屏幕理解: 显著提升了对桌面和移动设备界面的理解能力,支持计算机使用型智能体执行重复任务、QA 测试、UX 分析等。
视频理解: 在高帧率(高于 1 FPS)和复杂因果关系推理方面取得进展,能实现长视频的总结和应用生成。
Google 的综合优势: Hinton 指出 Google 在模型(Gemini 3、Nano Banana Pro)、自研芯片(TPU)、数据量、研究团队以及庞大的数据中心方面拥有显著优势。
市场竞争格局: Gemini 3 的发布带动了 Google 市值的增长。市场情报显示,Gemini 在下载增速、月活增速和用户使用时长方面正全面超越 ChatGPT,尽管 ChatGPT 仍拥有庞大的用户基数。
Google 的策略转变: Hinton 提及 Google 曾因对品牌声誉的担忧而变得谨慎,例如早期聊天机器人的发布顾虑,以及近期 AI 图像生成器出现的问题。但 Gemini 3 的发布标志着其在多模态理解上迈出了关键一步。
OpenAI 的挑战: ChatGPT 的增长势头趋缓,面临 Gemini、Claude 等竞品的压力。OpenAI CEO Sam Altman 已发出「红色警报」,要求团队聚焦提升 ChatGPT 的核心体验,以巩固用户飞轮优势。
Gemini 3 Pro 已发布,并在多项基准测试中刷新纪录。Gemini 产品正通过 Android 系统内置等方式扩大其全球市场份额。
(@新智元)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
作者提示: 个人观点,仅供参考