TEN Framework 新增人声分离能力；加州率先对 AI 陪伴聊天机器人实施监管丨日报

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@Jerry fong，@鲍勃

01有话题的技术

1、豆包语音合成模型 2.0 升级，语义理解+情感演绎双突破

火山引擎重磅升级豆包语音合成模型 2.0（Doubao-Seed-TTS 2.0）和豆包声音复刻模型 2.0（Doubao-Seed-ICL 2.0）。此次升级基于豆包大语言模型研发语音合成新架构，让合成和复刻的声音都能解锁深度语义理解和上下文理解能力，从单纯的文本朗读进化为「理解后的精准情感表达」。

此外 2.0 模型针对教育场景专项优化，使得全科复杂公式符号的合成平均准确率高达 90%左右。目前火山引擎已为 OPPO、Keep、美图、儿歌多多、洋葱学园、跃然创新等客户提供对话助手、情感陪伴、内容配音、教育辅助等多场景语音服务。

懂语义知语境，对话式语音合成新能力。

对话式合成让豆包语音合成模型 2.0 像是一位会思考的「演绎者」，让声音具备深度语义理解能力，并进一步将理解范围从给定文本扩大到多轮对话，理解包括：对话中的用户 Query、明确的自然语音指令，以及描述性的内心活动、背景信息、细腻情感等，让 AI 语音从「听得清」转变到「懂语义知语境」的情感式表达。

从「像」到「懂」，声音复刻拥有更强情感理解能力

豆包声音复刻模型 1.0 仅需 5 秒即可还原用户声音核心特征，轻松实现「声似」。但随着用户对个性化声音交互的需求升级，单一的声线复刻已无法满足对「更拟人、更富情感的生动表达」的追求。豆包声音复刻模型 2.0 同样具有深度语义理解能力，在语音交互、小说配音、播客对话等场景中具备更强的声音表现力。

攻克教育辅导难题，复杂公式符号朗读正确率 90%

豆包语音合成模型 2.0 和豆包声音复刻模型 2.0 提升了学科教育场景下复杂公式符号的朗读表现，针对教育场景进行数据增广与模型优化，涵盖单位、函数、幂数、面积、化合物、复分解等上百种类，经过大量客户真实场景的复杂公式评测集测试验证，在小学至高中全学科（数学、英语、化学、物理、地理、生物）的复杂公式符号朗读任务中，平均准确率达 90%左右。

（@火山引擎）

2、讯飞语音合成技术再升级：声音百变、真人感拉满

讯飞自研的语音合成大模型底座技术再次升级，不仅能够精准实现多属性的指令控制合成，让声音复刻更加灵活百变，更能支持长上下文的情感自适应合成能力，让超拟人合成更加温暖共情。

声音复刻：新增主动控制能力，只需上传一句录音，在保持原始音色的基础上，即可成多语种、多方言、多风格、多人设、多情感的合成语音
超拟人合成：具备自适应情感合成能力，支持数十种特色副语言和状态，覆盖咳嗽、清嗓、打喷嚏、笑声、哭声等类人表现

基于主流开源和闭源语音合成系统的客观效果评测集，讯飞 TTS 在中文测试集上词错误率 WER 最低，取得了 SOTA 语音合成效果，超越其它多个主流模型。

新升级的声音复刻和超拟人合成 API 均已上线讯飞开放平台，开发者可登录相关产品页进行咨询和调用。

声音复刻：

https://www.xfyun.cn/services/quick_tts

超拟人合成：

https://www.xfyun.cn/services/smart-tts

（@讯飞开放平台）

02有亮点的产品

1、加利福尼亚率先对 AI 陪伴聊天机器人实施监管

加利福尼亚州州长加文·纽森（Gavin Newsom）于签署了一项具有里程碑意义的法案，对 AI 陪伴聊天机器人进行监管，使加州成为全美第一个要求 AI 聊天机器人运营商为 AI 陪伴系统实施安全协议的州。

这项名为 SB 243 的法律旨在保护儿童和弱势用户免受使用 AI 陪伴聊天机器人可能带来的一些危害。它使公司，从 Meta 和 OpenAI 等大型实验室，到 Character AI、Replika 等专注于陪伴型聊天机器人的初创公司，在其聊天机器人未能达到法律标准时承担法律责任。

SB 243 将于 2026 年 1 月 1 日生效，要求公司实施某些功能，如年龄验证，以及有关社交媒体和陪伴聊天机器人的警告。该法律还对从非法深度伪造（deepfake）中获利的行为设定了更严厉的惩罚，每次违规最高可罚款 25 万美元。公司还必须建立应对自杀和自残的应急协议，并将这些方案与相关数据（如平台向用户提供危机干预中心通知的次数）一同提交给加州公共卫生部。

根据法案条文，平台还必须明确表明所有互动均为人工生成，聊天机器人不得冒充医疗专业人员。公司还需为未成年人提供休息提醒，并阻止他们查看由聊天机器人生成的色情露骨图像。

Character AI 表示，其聊天机器人包含免责声明，说明所有对话均为 AI 生成且虚构。Character AI 的一位发言人告诉 TechCrunch，公司欢迎与监管机构和立法者合作，共同制定针对这一新兴领域的规章和法律，并将遵守包括 SB 243 在内的相关法规。

SB 243 是加利福尼亚州近几周出台的第二项重要 AI 法规。9 月 29 日，纽森州长签署了 SB 53 成为法律，为大型 AI 公司制定了新的透明度要求。该法案要求大型 AI 实验室（如 OpenAI、Anthropic、Meta 和 Google DeepMind）在安全协议上保持透明，并确保这些公司的员工享有举报人保护。

其他州（如伊利诺伊州、内华达州和犹他州）也已通过法律，限制或全面禁止使用 AI 聊天机器人作为持牌心理健康护理的替代品。

近日，OpenAI CEO Sam Altman 发文宣布，ChatGPT 将会在未来几周内发布新版本，并会在 12 月推出更为全面的年龄分级，允许 ChatGPT 提供成人内容。

（@技术前哨）

2、Meta WhatsApp 调整 API 政策：禁止通用聊天机器人，可能影响 OpenAI、Perplexity

Meta 旗下的聊天应用 WhatsApp 本周更改了其商业 API 政策，禁止通用聊天机器人进入其平台。此举可能影响 OpenAI、Perplexity、由 Khosla Ventures 支持的 Luzia 以及由 General Catalyst 支持的 Poke 等公司的基于 WhatsApp 的助手。

该公司在其商业 API 条款中添加了一个新部分，以应对「AI 提供者」，重点针对通用聊天机器人。这些条款将于 2026 年 1 月 15 日生效，其中表示 Meta 不会允许 AI 模型提供者在 WhatsApp 上分发其 AI 助手。

人工智能或机器学习技术提供者和开发者，包括但不限于大型语言模型、生成式人工智能平台、通用人工智能助手或 Meta 根据其独断专行确定的类似技术（「AI 提供者」），在 Meta 根据其独断专行确定的技术是主要（而非偶然或辅助）功能时，严格禁止直接或间接访问或使用 WhatsApp 商业解决方案，以提供、交付、提供或销售此类技术。

Meta 向 TechCrunch 确认了这一举措，并指出这一举措不影响在 WhatsApp 上使用人工智能为客户服务的业务。例如，一家运营客户服务机器人的旅游公司不会被禁止使用该服务。

Meta 此举的理由是，WhatsApp Business API 是为企业服务客户而设计的，而不是作为聊天机器人分发平台。该公司表示，虽然该 API 是为企业对企业使用场景而构建的，但在最近几个月，它意外地看到了为通用聊天机器人提供服务的使用案例。

（@TechCrunch）

03Real-Time AI Demo

1、TEN Framework 新增人声分离能力

来自 @elliotchen100@X

录了一个视频，TEN 语音 AI 识别多个音色

3 个人分别说一句 hello，锁定声音

然后每个人说自己喜欢吃什么

TEN 根据音色去打标签记录

这个场景实际应用中非常广泛

不仅可以识别多人对话场景

还可以锁定声音后，对周围噪音降噪

当然，还可以省 token，只传一个人的声音给 LLM

04有态度的观点

1、智元机器人高级副总裁：人形机器人不会被一两家垄断

日前，智元机器人高级副总裁王闯接受新浪财经的采访，对于如何看待国内人形机器人产业的竞争格局，王闯认为，这个产业最终会比汽车产业还要大，不可能是一两家龙头垄断。

王闯指出，人形机器人产业有几个特点：

产业规模足够大，细分领域有非常多不同的需求，每一家公司可能都有一些擅长的点；
全球每一个区域都有很多差异化的需求，如果一个公司能够比较专注于做这些差异化需求，可能做得比头部的大公司还要更好。「比如有手机厂商在非洲就活得比较好，有些车企在越野车赛道做得很好。」

同时，王闯也在采访中表示，人形机器人落地的难度是分阶梯的，而到家里干活其实是最难的场景，因为它要解决的问题非常多，比如安全问题、成本问题、同时对各种复杂任务的泛化性要高，且不能破坏家里的东西，这些问题是非常难。但在一些简单的场景，人形机器人今年就已经可以落地了。

「去年人形机器人还走不稳，今年大家能看到机器人满地跑，甚至能够跳各种花里胡哨的舞蹈」，王闯预测，「这一年的发展速度已经非常快了，在我们看来很多过去我们认为可能 3-5 年后能解决的问题，过去一年都被解决掉了。」

对于如何看待「机器人替人」这一问题，王闯指出，想让机器代替人的前提条件是有非常好的成功率，但从成本角度讲，机器还不能替代人工。「现在谈替代人工还早得很，未来五年能替代就已经很不错了。」

在王闯看来，机器人（含人形）落地的合理路线，会遵循先不做跟物理世界接触的领域，而是要先做那些能够把自己的运动能力、交互能力体现出来，且能很容易地与大语言模型、多模态模型结合的领域，是那些能给用户带来很好的体验，能带来实际价值的领域，最后再做跟物理世界接触。

(@ APPSO)

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻