又一家 AI 语音调研初创融资,Miravoice 融资 630 万美元丨日报

图片


开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@鲍勃

01 有话题的技术

1、智谱正式发布 GLM-5.1,7540 亿参数 MIT 开源

图片


图片


图片


智谱正式发布并开源了其最新一代旗舰模型 GLM-5.1,该模型专为 Agentic 工程设计,拥有 7540 亿 参数并以 MIT License 开源。


GLM-5.1 支持文本输入输出、200K 上下文窗口及 128K 最大输出,在综合能力和编程上对齐 Claude Opus,并在 SWE-Bench Pro 基准测试中以 58.4 的成绩创下全球最佳记录。


该模型的核心突破在于其显著提升的长程任务能力,能够在单次任务中自主工作长达 8 小时,通过数百轮迭代和数千次工具调用持续优化结果。


例如,在 VectorDBBench 中完成超 655 轮迭代,实现约 6 倍 的 QPS 提升;在 KernelBench Level 3 达到 3.6 倍 加速比;以及耗时 8 小时 从零构建完整的 Linux 桌面系统。


HuggingFace 链接:

https://huggingface.co/zai-org/GLM-5.1


(@橘鸦 Juya)


2、ACE-Step v1.5 发布:LM+DiT 架构支持 10 分钟音频生成,VRAM 门槛降至 4GB

图片


开源音乐基础模型 ACE-Step v1.5 通过 LM+DiT 混合架构实现了商业级音频生成质量,并显著降低了硬件运行门槛。该模型支持在消费级显卡上快速生成长达 10 分钟的音频,并集成了多种音频编辑与 LoRA 个性化能力。


  • LM + DiT 混合架构:语言模型(LM)充当全能规划器,通过 Chain-of-Thought(CoT)合成元数据、歌词和标题蓝图,指导扩散变换器(DiT)执行音频合成,支持从短循环到 10 分钟作品的尺度扩展。

  • 低延迟消费级部署:模型运行显存(VRAM)需求低于 4GB;在 RTX 3090 上单曲生成耗时低于 10 秒(A100 低于 2 秒)。

  • 内生强化学习对齐:采用仅依赖模型内部机制的内生强化学习(Intrinsic RL)进行对齐,不引入外部奖励模型或人类偏好,从而消

  • 多维度音频编辑接口:统一了风格控制与编辑功能,支持音频重绘(Repainting)、人声转 BGM(Vocal-to-BGM)及封面生成,支持超过 50 种语言。

  • 轻量级 LoRA 个性化:支持用户通过少量歌曲样本训练 LoRA 权重,实现特定音乐风格或创作者特征的快速迁移。


GitHub 链接:

https://github.com/ace-step/ACE-Step-1.5


HuggingFace 链接:

https://huggingface.co/collections/ACE-Step/ace-step-15


(@GitHub)


3、小米发布 Xiaomi Any2Speech 与 Midasheng:支持 10 分钟长音频合成与全场景语音-音效统一建模

小米大模型应用团队推出两项音频生成框架:Xiaomi Any2Speech 侧重长文本及多角色叙事,支持单次推理生成 10 分钟连贯音频;


Midasheng-audio-generate 侧重声效重建,通过自然语言驱动语音、音乐与环境音的统一合成。该方案标志着语音合成从单纯的文字转语音(TTS)转向全场景语义建模。


  • GST (Global-Sentence-Token) 三层标注体系:模型通过 Global 层把控场景定位与整体情绪Sentence 层调节语气、语速及表达意图Token 层精准处理重音、多音字及呼吸声/笑声等真人表达细节,实现叙事逻辑与声学空间的深度耦合。

  • Labeling over Filtering 训练策略:摒弃传统 TTS 过滤嘈杂数据的做法,将多人重叠、低质量素材通过 GST 体系转化为训练特征。模型借此习得从复杂背景中提取并泛化特定声学效果(如磁带损耗感、旧广播感)的能力,而非单纯合成「干净」的人声。

  • 基于 Flow Matching 的非 VAE 统一分词器:Midasheng 架构放弃了会损失语义信息的 VAE 声学分词器,采用统一的语义-声学表示(Midasheng tokenizer)。该架构支持对整体描述、说话人风格、音效、音乐、转写五个字段进行解耦控制,实现声画同频的沉浸式音频生成。


(@量子位)



02 有亮点的产品


1、AI 语音调研 Miravoice 获 630 万美元种子轮融资:推出支持 120+ 问题、单次通话超 40 分钟的 AI 语音调查智能体

图片

Leybzon、Nishant Jain 和 Shreyas Tirumala 是 Miravoice 的联合创始人。


Miravoice 宣布完成 630 万美元种子轮融资,由 Unusual Ventures 领投。该公司开发了专为长篇、高精度电话调查设计的 AI 智能体,旨在取代传统呼叫中心,通过结构化对话实现大规模定量研究数据的自动化采集


  • 支持超长时长与复杂题型:AI 智能体可执行单次超过 40 分钟的语音访谈,覆盖 120 个以上的问题,支持包括开放式回答、李克特量表(Likert scales)、数值输入及矩阵题在内的多种复杂定量研究题型。

  • 结构化对话约束与防幻觉机制:区别于通用对话 AI,该智能体专注于预设问题的结构化访谈,通过逻辑约束确保完整覆盖问卷所有要点,并宣称通过特定架构消除了响应过程中的 hallucination(幻觉)问题。

  • 复杂交互处理能力:具备处理人类对话中常见的中断、停顿等「非理想状态」的能力,确保访谈流程的连续性,并支持多语种原生交互。

  • 自动化部署流程:用户仅需通过构建问卷并关联电话号码即可启动受训智能体,将原本由呼叫中心承担的数周采集周期缩短至数小时

  • 高并发处理与按量计费:2025 年通话量已突破 10 万次,支持从呼出到呼入的双向处理;采用基于通话时长的计费模式(Usage-based billing)。


( @crunchbase)


2、Sand.ai 完成逾 5000 万美元融资


据知情人士透露,Video Agent 赛道明星公司 Sand.ai 近期完成新一轮约 5000 万美元融资


Sand.ai 旗下产品 VidMuse 上线仅 2 个月,年度经常性收入(ARR)即突破千万美元,成为 Video Agent 赛道达成这一商业化里程碑速度最快的产品。


VidMuse 首创「Music in Video Out」(音乐生视频)范式,以音频驱动视频创作为核心,底层技术来自 Sand.ai 自研的音视频原生架构。


( @APPSO)


3、扣子推出 Agent World,为 AI 智能体配备云设备与专属邮箱

图片


扣子(Coze)昨天正式发布 2.5 版本,推出「Agent World」全新生态体系,围绕云设备、技能扩展与 AI 智能体人格三大方向进行全面升级。


  • 云设备方面,AI 智能体获得独立云电脑与云手机,可在真实系统环境中运行脚本、操作 App,并通过实时推流向用户同步屏幕画面,任务全程在后台独立运行;

  • 技能层面,内置基于 Seedance 2.0 的视频创作 AI 智能体,扣子编程 CLI 同步上线;技能商店引入法律、金融等行业专业 Skills,其中金融 Skill 与国信证券联合开发;

  • 记忆与身份方面,AI 智能体采用全新记忆层架构,可跨渠道共享记忆并按 Session 隔离权限,同时配备独立专属邮箱用于注册第三方平台及对外通信;

  • 生态层面,推出「虾评」技能评测广场、「Agent Link」社交站点及 PlayLab 桌游实验室,构建 AI 智能体互动学习的开放社区。目前部分功能处于限时体验阶段,用户可通过 coze.cn 或扣子 App 进行体验。


( @APPSO)



03 有态度的观点

1、AI 界再来新词:被淘汰恐惧 FOBO


据《财富》杂志结合麻省理工学院(MIT)的最新研究发布报告,指出人工智能对就业市场的自动化冲击呈渐进式发展,且正引发职场群体日益加剧的「被淘汰恐惧(FOBO)」


据悉,FOBO 全称为 Fear of Becoming Obsolete(对被淘汰的恐惧)。与传统「失业焦虑」不同,这种情绪更多指向「自己会变得无关紧要」


MIT 研究团队在最新报告《Crashing Waves vs。 Rising Tides》中,对包括 GPT-5、Gemini 2.5 Pro 及 DeepSeek R1 在内的 40 余款前沿大模型进行了 1.7 万次人工评估。测试结果表明,AI 目前已能以最低合格标准完成 50% 至 75% 的文本类工作任务


研究指出,AI 任务失败率正以每 2 至 3 年减半的速度下降;按此趋势测算,至 2029 年,AI 预计能以 80% 至 95% 的成功率完成大部分常规文本工作。职场群体的危机感已反映在统计数据中。毕马威(KPMG)数据显示,目前有 40% 的员工将 AI 引发的失业视为核心担忧,该比例同比激增近一倍。


安永(EY)全球首席创新官 Joe Depa 证实了这一职场分化现象,他表示企业内部初级员工对 AI 工具的采用率极高,而部分资深软件工程师因抗拒使用 AI,其实际生产力已被借助 AI 的同行拉开 10 倍至 20 倍的差距


(@APPSO)

图片


阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:


我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

作者提示: 个人观点,仅供参考​

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    关键词
    // 相关帖子
    Coming soon...
    • 0
    又一家 AI 语音调研初创融资,Miravoice 融资 630 万美元丨日报RTRTE_Dev_Comm