TEN Framework 新增人声分离能力;加州率先对 AI 陪伴聊天机器人实施监管丨日报

图片

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@Jerry fong,@鲍勃


01有话题的技术

1、豆包语音合成模型 2.0 升级,语义理解+情感演绎双突破

火山引擎重磅升级豆包语音合成模型 2.0(Doubao-Seed-TTS 2.0)和豆包声音复刻模型 2.0(Doubao-Seed-ICL 2.0)。此次升级基于豆包大语言模型研发语音合成新架构,让合成和复刻的声音都能解锁深度语义理解和上下文理解能力,从单纯的文本朗读进化为「理解后的精准情感表达」。

此外 2.0 模型针对教育场景专项优化,使得全科复杂公式符号的合成平均准确率高达 90%左右。目前火山引擎已为 OPPO、Keep、美图、儿歌多多、洋葱学园、跃然创新等客户提供对话助手、情感陪伴、内容配音、教育辅助等多场景语音服务。

  • 懂语义知语境,对话式语音合成新能力。

对话式合成让豆包语音合成模型 2.0 像是一位会思考的「演绎者」,让声音具备深度语义理解能力,并进一步将理解范围从给定文本扩大到多轮对话,理解包括:对话中的用户 Query、明确的自然语音指令,以及描述性的内心活动、背景信息、细腻情感等,让 AI 语音从「听得清」转变到「懂语义知语境」的情感式表达。

  • 从「像」到「懂」,声音复刻拥有更强情感理解能力

豆包声音复刻模型 1.0 仅需 5 秒即可还原用户声音核心特征,轻松实现「声似」。但随着用户对个性化声音交互的需求升级,单一的声线复刻已无法满足对「更拟人、更富情感的生动表达」的追求。豆包声音复刻模型 2.0 同样具有深度语义理解能力,在语音交互、小说配音、播客对话等场景中具备更强的声音表现力。

  • 攻克教育辅导难题,复杂公式符号朗读正确率 90%

豆包语音合成模型 2.0 和豆包声音复刻模型 2.0 提升了学科教育场景下复杂公式符号的朗读表现,针对教育场景进行数据增广与模型优化,涵盖单位、函数、幂数、面积、化合物、复分解等上百种类,经过大量客户真实场景的复杂公式评测集测试验证,在小学至高中全学科(数学、英语、化学、物理、地理、生物)的复杂公式符号朗读任务中,平均准确率达 90%左右。

(@火山引擎)

2、讯飞语音合成技术再升级:声音百变、真人感拉满
图片


讯飞自研的语音合成大模型底座技术再次升级,不仅能够精准实现多属性的指令控制合成,让声音复刻更加灵活百变,更能支持长上下文的情感自适应合成能力,让超拟人合成更加温暖共情。

声音复刻:新增主动控制能力,只需上传一句录音,在保持原始音色的基础上,即可成多语种、多方言、多风格、多人设、多情感的合成语音

超拟人合成:具备自适应情感合成能力,支持数十种特色副语言和状态,覆盖咳嗽、清嗓、打喷嚏、笑声、哭声等类人表现

基于主流开源和闭源语音合成系统的客观效果评测集,讯飞 TTS 在中文测试集上词错误率 WER 最低,取得了 SOTA 语音合成效果,超越其它多个主流模型。

新升级的声音复刻和超拟人合成 API 均已上线讯飞开放平台,开发者可登录相关产品页进行咨询和调用。 

声音复刻:

https://www.xfyun.cn/services/quick_tts 

超拟人合成:

https://www.xfyun.cn/services/smart-tts

(@讯飞开放平台)



02有亮点的产品

1、加利福尼亚率先对 AI 陪伴聊天机器人实施监管

加利福尼亚州州长加文·纽森(Gavin Newsom)于签署了一项具有里程碑意义的法案,对 AI 陪伴聊天机器人进行监管,使加州成为全美第一个要求 AI 聊天机器人运营商为 AI 陪伴系统实施安全协议的州

这项名为 SB 243 的法律旨在保护儿童和弱势用户免受使用 AI 陪伴聊天机器人可能带来的一些危害。它使公司,从 Meta 和 OpenAI 等大型实验室,到 Character AI、Replika 等专注于陪伴型聊天机器人的初创公司,在其聊天机器人未能达到法律标准时承担法律责任。

SB 243 将于 2026 年 1 月 1 日生效,要求公司实施某些功能,如年龄验证,以及有关社交媒体和陪伴聊天机器人的警告。该法律还对从非法深度伪造(deepfake)中获利的行为设定了更严厉的惩罚,每次违规最高可罚款 25 万美元。公司还必须建立应对自杀和自残的应急协议,并将这些方案与相关数据(如平台向用户提供危机干预中心通知的次数)一同提交给加州公共卫生部。

根据法案条文,平台还必须明确表明所有互动均为人工生成,聊天机器人不得冒充医疗专业人员。公司还需为未成年人提供休息提醒,并阻止他们查看由聊天机器人生成的色情露骨图像。

Character AI 表示,其聊天机器人包含免责声明,说明所有对话均为 AI 生成且虚构。Character AI 的一位发言人告诉 TechCrunch,公司欢迎与监管机构和立法者合作,共同制定针对这一新兴领域的规章和法律,并将遵守包括 SB 243 在内的相关法规。

SB 243 是加利福尼亚州近几周出台的第二项重要 AI 法规。9 月 29 日,纽森州长签署了 SB 53 成为法律,为大型 AI 公司制定了新的透明度要求。该法案要求大型 AI 实验室(如 OpenAI、Anthropic、Meta 和 Google DeepMind)在安全协议上保持透明,并确保这些公司的员工享有举报人保护。

其他州(如伊利诺伊州、内华达州和犹他州)也已通过法律,限制或全面禁止使用 AI 聊天机器人作为持牌心理健康护理的替代品。

近日,OpenAI CEO Sam Altman 发文宣布,ChatGPT 将会在未来几周内发布新版本,并会在 12 月推出更为全面的年龄分级,允许 ChatGPT 提供成人内容。

(@技术前哨)

2、Meta WhatsApp 调整 API 政策:禁止通用聊天机器人,可能影响 OpenAI、Perplexity
图片

Meta 旗下的聊天应用 WhatsApp 本周更改了其商业 API 政策,禁止通用聊天机器人进入其平台。此举可能影响 OpenAI、Perplexity、由 Khosla Ventures 支持的 Luzia 以及由 General Catalyst 支持的 Poke 等公司的基于 WhatsApp 的助手。

该公司在其商业 API 条款中添加了一个新部分,以应对「AI 提供者」,重点针对通用聊天机器人。这些条款将于 2026 年 1 月 15 日生效,其中表示 Meta 不会允许 AI 模型提供者在 WhatsApp 上分发其 AI 助手。

人工智能或机器学习技术提供者和开发者,包括但不限于大型语言模型、生成式人工智能平台、通用人工智能助手或 Meta 根据其独断专行确定的类似技术(「AI 提供者」),在 Meta 根据其独断专行确定的技术是主要(而非偶然或辅助)功能时,严格禁止直接或间接访问或使用 WhatsApp 商业解决方案,以提供、交付、提供或销售此类技术。

Meta 向 TechCrunch 确认了这一举措,并指出这一举措不影响在 WhatsApp 上使用人工智能为客户服务的业务。例如,一家运营客户服务机器人的旅游公司不会被禁止使用该服务。

Meta 此举的理由是,WhatsApp Business API 是为企业服务客户而设计的,而不是作为聊天机器人分发平台。该公司表示,虽然该 API 是为企业对企业使用场景而构建的,但在最近几个月,它意外地看到了为通用聊天机器人提供服务的使用案例。

(@TechCrunch)



03Real-Time AI Demo

1、TEN Framework 新增人声分离能力

来自 @elliotchen100@X

录了一个视频,TEN 语音 AI 识别多个音色

3 个人分别说一句 hello,锁定声音

然后每个人说自己喜欢吃什么

TEN 根据音色去打标签记录

这个场景实际应用中非常广泛

不仅可以识别多人对话场景

还可以锁定声音后,对周围噪音降噪

当然,还可以省  token,只传一个人的声音给 LLM



04有态度的观点 

1、智元机器人高级副总裁:人形机器人不会被一两家垄断

日前,智元机器人高级副总裁王闯接受新浪财经的采访,对于如何看待国内人形机器人产业的竞争格局,王闯认为,这个产业最终会比汽车产业还要大,不可能是一两家龙头垄断。

王闯指出,人形机器人产业有几个特点:

  • 产业规模足够大,细分领域有非常多不同的需求,每一家公司可能都有一些擅长的点;

  • 全球每一个区域都有很多差异化的需求,如果一个公司能够比较专注于做这些差异化需求,可能做得比头部的大公司还要更好。「比如有手机厂商在非洲就活得比较好,有些车企在越野车赛道做得很好。」

同时,王闯也在采访中表示,人形机器人落地的难度是分阶梯的,而到家里干活其实是最难的场景,因为它要解决的问题非常多,比如安全问题、成本问题、同时对各种复杂任务的泛化性要高,且不能破坏家里的东西,这些问题是非常难。但在一些简单的场景,人形机器人今年就已经可以落地了。

「去年人形机器人还走不稳,今年大家能看到机器人满地跑,甚至能够跳各种花里胡哨的舞蹈」,王闯预测,「这一年的发展速度已经非常快了,在我们看来很多过去我们认为可能 3-5 年后能解决的问题,过去一年都被解决掉了。」

对于如何看待「机器人替人」这一问题,王闯指出,想让机器代替人的前提条件是有非常好的成功率,但从成本角度讲,机器还不能替代人工。「现在谈替代人工还早得很,未来五年能替代就已经很不错了。」

在王闯看来,机器人(含人形)落地的合理路线,会遵循先不做跟物理世界接触的领域,而是要先做那些能够把自己的运动能力、交互能力体现出来,且能很容易地与大语言模型、多模态模型结合的领域,是那些能给用户带来很好的体验,能带来实际价值的领域,最后再做跟物理世界接触。

(@ APPSO)

图片


阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

图片

素材来源官方媒体/网络新闻

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    关键词
    // 相关帖子
    Coming soon...
    • 0
    TEN Framework 新增人声分离能力;加州率先对 AI 陪伴聊天机器人实施监管丨日报RTRTE_Dev_Comm