AI 宠物「珞博智能」完成红杉中国数千万元天使+轮融资;多维标注四川话语音语料库 WenetSpeech-Chuan 开源丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@Jerry fong,@鲍勃
01有话题的技术
1、WenetSpeech-Chuan:多维标注大规模四川话语音语料库开源
语音理解与生成的飞速发展离不开大规模高质量语音数据集的推动。其中,语音识别(ASR)和语音合成(TTS)被公认为最首要的任务。但对于拥有约 1.2 亿 母语使用者的川渝方言而言,受限于标注资源匮乏,研究进展缓慢,ASR 与 TTS 的表现始终不尽如人意。
现有公开的川渝方言语料库在规模、风格和标注维度上普遍存在不足。例如 ASR-CSichDiaCSC 和 ASR-SCSichDiaDuSC 仅能提供小规模数据,覆盖的场景非常有限;此外,川渝方言评测集更是稀缺,仅有 KeSpeech 包含西南官话的测试子集。同时,这些语料往往只提供语音-文本对齐信息,缺乏说话人属性或声学质量等元数据,极大限制了其在自监督学习、风格建模和多任务训练中的应用,导致主流 ASR 与 TTS 系统在川渝方言任务上表现欠佳,并在真实场景中泛化能力不足。
为解决上述问题,西北工业大学音频语音与语言处理研究组(ASLP@NPU)联合希尔贝壳、中国电信人工智能研究院、南京大学和 Wenet 开源社区,提出了 WenetSpeech-Chuan,首个大规模多维标注的川渝方言语音语料库,涵盖 10000 小时、9 大领域的川渝方言语音数据,并包含 ASR 转录、文本置信度、说话人情感、年龄、性别、语音质量评分等多种标注信息。同时,我们还发布了 WSC-Eval,这是一个全面的川渝方言评测基准,包含两个部分:WSC-Eval-ASR(人工标注集,用于评测不同场景(Easy/Easy)声学条件下的 ASR 性能),以及 WSC-Eval-TTS(简单和困难子集,用于标准测试与泛化能力测试)。实验结果表明,基于 WenetSpeech-Chuan 训练的模型在川渝方言 ASR 与 TTS 任务中表现优异,性能超越最先进(SOTA)的系统,并与商业系统相媲美,凸显了该数据集与流程的重要价值。
相关技术报告 「WenetSpeech-Chuan: A Large-Scale Sichuanese Corpus with Rich Annotation for Dialectal Speech Processing」 已公开发布。我们已全面开源数据、代码和模型,诚邀各位开发者与研究者试用,共同推动川渝方言语音技术的发展!
项目主页链接:
https://github.com/ASLP-lab/WenetSpeech-Chuan
(@音频语音与语言处理研究组)
2、全球首个音文对齐「慢思考」反诈数据集与生成框架开源发布,斩获 ACM Multimedia 2025
全球电信诈骗犯罪活动持续蔓延,每年造成的经济损失高达万亿美元,给社会带来了严峻的挑战。传统的反诈骗方法在面对日益复杂的骗术时,往往显得力不从心。
在此背景下,大型语言模型(LLM)的「慢思考」推理能力为反诈领域带来了新的希望。然而,如何有效分析真实语音通话中的诈骗信号,并将其转化为文本进行处理,即跨越「模态鸿沟」,成为当前面临的关键难题。语音中的语气、停顿、声调等细微之处往往隐藏着重要的诈骗线索,如何准确捕捉这些信息,亟待解决方案。
近日,一项在计算机多媒体领域顶会 ACM Multimedia 2025 上被接收的突破性研究成果——TeleAntiFraud-28k,为这一难题提供了答案。
该研究由机智流社区(SmartFlowAI)核心成员尖米,携手中移互联网、东北大学等知名机构的研究者共同完成。TeleAntiFraud-28k 是全球首个专为电信诈骗分析设计的、开源的、音文对齐的「慢思考」数据集。
该项目不仅提供了包含 28,511 个样本、总时长超过 307 小时的高质量数据集,还开源了一整套创新的数据生成框架与评测基准。这一开创性工作旨在为全球的多模态反诈研究奠定坚实的基础,有望显著提升电信诈骗的识别和防范能力。
(@机智流)
02有亮点的产品
1、珞博智能完成红杉中国数千万元天使+轮融资
AI 陪伴硬件公司珞博智能(Robopoet)近日完成数千万元天使 + 轮融资。本轮融资由红杉中国独家领投,老股东金沙江创投、零一创投跟投。
红杉中国合伙人苏凯推动了此轮投资,此前他还主导投资了泡泡玛特、卡游等 IP 消费品公司。
今年 6 月,珞博智能完成数千万人民币的天使轮融资,由上影新视野基金、金沙江创投联合领投,零一创投跟投。
珞博智能成立于 2024 年初,创始人孙兆治曾多年在欧洲设计汽车,2015 年回国,先后加入小鹏、滴滴,任设计负责人,2021 年加入小鹏机器人公司鹏行智能任产品设计负责人,2024 年开始此次创业。
珞博智能目前主要的产品是 AI 电子宠物 「Fuzozo 芙崽」,它可以与用户语音互动,还拥有记忆功能,可以根据用户互动频率和方式,演化出不同的性格。孙兆治此前曾告诉我们,这款产品主要面向的是 「Z 世代」(90 后、00 后)女性用户,它参考了养成类游戏的玩法,希望能做到跟用户构建情感羁绊,而不只是好玩。
和其它调用大模型的硬件类似,Fuzozo 长期的商业模式是一次性硬件售卖加持续的软件订阅,如超出免费互动额度,需等待额度恢复或付费购买额度。但目前产品仍处于早鸟免费期。
Fuzozo 的日记玩法,它会根据当天与 「主人」 的互动,以 AI 生成 「心事」(短文段)和日记(相对长篇幅)。
这款产品今年 618 购物节在京东平台首先开启预售,初始售价为 399 元,珞博智能方面称,半个月时间 Fuzozo 在京东卖出超 3000 件,进入潮流盲盒销售排行榜前 10 ,它前面的产品全部来自泡泡玛特。
大模型交互能力越来越强、潮玩 IP 价值被泡泡玛特们不断推高,它们的交叉点就是 AI 陪伴硬件(或称 AI 玩具),这类玩具具备交互、记忆的能力,用户能更深层次与它互动,而不只是挂在包上。
这催生了一个新赛道,中商产业研究院统计,2025 年 1-8 月,中国 AI 玩具相关投融资事件数量达 17 起,金额达 200.65 亿元。预计 2025 年市场规模增至 290 亿元,2030 年增至 850 亿元。(@晚点团队)
2、蚂蚁集团、招商局再出手,首形科技融资过亿
首形科技宣布完成新一轮过亿融资,由蚂蚁集团领投,锦秋基金联合投资,同时引入厚雪资本、弘晖基金等知名风险投资基金和鹏城愿景基金等科研机构基金。老股东顺为资本、招商局创投、Taihill 持续超额追投,深蓝资本担任独家财务顾问。本轮融资将主要用于情绪基座模型的迭代,以及多场景应用的落地。
今年以来,首形科技已经完成了三轮融资,资本进展快速:6 月,该公司完成 Pre-A 轮融资,由招商局创投、深创投领投,五源资本、浔商创投参投;8 月,其又完成 Pre-A 轮融资,由顺为资本领投,招商局创投、深创投、智元机器人超额加注,奇绩创坛、五源资本追投。
首形科技创始人胡宇航博士毕业于哥伦比亚大学,长期研究机器人自我建模、情绪交互与仿生控制。在博士阶段,他的科研成果连续发表于 Nature Machine Intelligence、Science Robotics 等国际顶级学术期刊,并提出「自监督学习+自我建模」的方法体系,使机器人能够通过观察自身学习结构与运动规律,从而具备自主适应和终身学习的潜力。同时,他也提出「人机面部共情表达预测模型」,让机器人能够理解人类细微的面部变化,并做出自然可信的回应。这些成果成为首形科技的技术起点。
首形科技为机器人打造了一个情绪基座模型,融合语言、表情、语音、语境等多模态信息,使机器人能够理解和表达情绪。首形科技还发起了 Origin 计划,情绪基座大模型能够为目前的对话类大模型提供更直观的情绪表达能力,能够让虚拟数字生命成为可感知、可交流、自主的实体,未来将提供沉浸式、长期可持续的角色实体交互体验。
目前,首形科技已形成超逼真类人机器人 Elf 系列、Lan 系列,以及高性能无刷微型电机三大产品线。该公司提到,要让人形机器人本身成为「具备艺术收藏价值的科技品类」。其最新推出的「精灵·璇」,被设定为来自精灵王国的公主,不仅拥有超仿生面孔,甚至在皮肤纹理、肌肉运动等方面都极其逼真。(@机器人前瞻)
3、Neon Mobile 推出付费电话录音服务,用户数据或被用于训练 AI 模型
一款名为 Neon Mobile 的应用近期迅速蹿升至 Apple App Store 社交网络类排名前列,该应用声称通过付费让用户录制电话录音,并将其数据出售给 AI 公司以训练模型。此举引发了对用户隐私和数据安全的高度担忧。
付费录音与数据出售: Neon Mobile 宣称支付用户每分钟 30 美分(拨打给其他 Neon 用户)或高达每天 30 美元(拨打给其他任何人)的费用,以换取用户电话录音的使用权。其用户协议表明,这些数据将被出售给「AI 公司」,用于「开发、训练、测试和改进机器学习模型」。
潜在隐私风险: 尽管 Neon Mobile 声称仅录制用户一侧的通话(除非对方也是 Neon 用户),并会移除个人身份信息,但其用户协议授予了 Neon 极广泛的数据使用许可,包括但不限于销售、使用、存储、修改和分发录音,这为更深层次的数据滥用留下了空间。
法律合规的「擦边球」: 法律专家指出,仅录制通话一方的行为可能是在规避「窃听法」(wiretap laws),这些法律通常要求通话双方都同意录音。然而,这种做法仍可能涉及隐私问题,尤其当数据被用于创建身份仿冒或进行欺诈时。
用户隐私交换的趋势: Neon Mobile 的高排名表明,部分用户愿意为「小额收益」牺牲个人隐私,这反映了在 AI 时代,用户对隐私的态度可能正在发生变化,即使这种交换可能带来长远的负面影响。
数据安全与合作伙伴的隐忧: Neon Mobile 未披露其数据销售的合作伙伴,也未说明这些合作伙伴如何使用用户数据。此外,公司本身也面临数据泄露的风险。
( @TechCrunch)
4、Keplar 融资 340 万美元,用 AI Voice 取代传统市场调研
总部位于旧金山的 AI 市场调研初创公司 Keplar 宣布完成 340 万美元种子轮融资。该公司利用先进的语音 AI 技术,通过与客户进行对话式访谈,旨在颠覆传统市场调研行业,提供更快速、更低成本的洞察。
AI Voice 驱动的客户访谈: Keplar 的平台能够将任何产品问题转化为访谈指南,并由 AI 语音智能体(Voice AI)主动联系客户,进行深入的、具有探索性的对话,以了解客户的喜好与痛点。
颠覆传统市场调研: 传统市场调研耗时数周且成本高昂,Keplar 通过 AI 自动化流程,将研究 setup 时间缩短至分钟级,并显著降低成本,提供与人工调研相似的报告和演示文稿。
媲美真人的交互体验: 凭借 LLM 的进步,Keplar 的语音 AI 交互已达到高度逼真,受访者甚至会忘记自己正在与 AI 对话,并会根据 AI 智能体的名字(如 Ellie, Andrew, Ryan)与其互动。
已获知名企业客户认可: Keplar 的服务已获得 Clorox 和 Intercom 等知名企业的应用。
强劲的市场竞争: Keplar 面临 Outset、Listen Labs 等已获得大量融资的竞争对手,表明该领域受到资本的广泛关注。
(@TechCrunch)
03有态度的观点
1、Eric Schmidt 呼吁美国科技行业拥抱中国的 996 工作制
Google 前 CEO Eric Schmidt 认为,为了与中国科技公司竞争,美国科技业从业者需要放弃工作生活平衡,拥抱中国的 996 工作制。他在 All-In 播客中表示,他不相信远程办公,部分是因为远程办公无助于美国科技公司与中国残酷的工作文化竞争。他说,如果你想要在科技领域获得成功,你必须权衡,我们的对手是中国人,中国工人的工作生活平衡是 996,即每周工作六天,早上 9 点到晚上 9 点。996 工作制于 2021 年被禁止,但 Schmidt 坚称中国科技公司仍然在推行 996 工作制。据《连线》报道,美国的初创公司,尤其是 AI 领域的初创公司,也热衷于推行中国的 996 工作制。( @Solidot)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻