Fun-ASR 1.5 发布更新:支持日韩等 30 种语言+汉语方言+多语言混合转录丨日报

图片


开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@鲍勃


01 有话题的技术

1、xAI 推出 Grok 语音转写与合成两款音频 API:支持 WebSocket 实时流式传输,STT 定价仅为竞品 1/3

图片


图片


图片


xAI 宣布推出独立的音频处理接口 Grok Speech to Text (STT) 与 Text to Speech (TTS),该技术栈此前已在 Tesla 车载语音和 Starlink 客户支持系统中验证。开发者现可通过 REST 或 WebSocket 接入,以极低成本实现毫秒级延迟的语音识别与合成。


  • REST 与 WebSocket 双端支持:REST API 优化毫秒级批量任务;WebSocket API 针对低延迟实时转录场景,支持流式音频输入。

  • 智能逆文本规范化(ITN)能力:内置高级 ITN 引擎,能自动将口语(如 「four one four」)转换为标准化的结构化数据(如 「414」),针对电话、日期、货币和邮箱格式进行了深度优化。

  • 高精度实体识别与说话人分割:支持多通道音频输入及说话人分割(Diarization),提供单词级时间戳。在电话实体识别场景下,其词错误率(WER)仅为 5.0%,优于 ElevenLabs (12.0%) 和 Deepgram (13.5%)。

  • 激进的价格策略:批量 STT 定价 $0.10/小时,流式 STT 定价 $0.20/小时。对比行业主流竞品(如 Deepgram 批量 $0.31/小时、流式 $0.55/小时),其使用成本降低了约 60%-70%。

  • 多语言与垂直领域优化:支持超过 25 种语言的无缝切换,并在医疗、法律、金融等强术语背景下进行了商业用例增强。


( @Xai)


2、高德发布 ABot 具身智能全栈:采用 14B DiT 世界模型,打通导航 (ABot-N) 与操作 (ABot-M) 统一架构

高德发布 ABot 通用具身智能系统,构建了从数据仿真、基座模型到多机调度的全链路技术栈。该系统利用高德时空数据储备解决具身智能数据稀缺难题,实现一套模型在轮式、四足及人形机器人上的跨本体部署。


  • ABot-World 物理级动力学引擎:采用专为具身设计的 14B DiT 架构,首创 Diffusion-DPO 物理偏好对齐框架。该模型将物理定律嵌入生成流程,支持消费级显卡实时交互及 10 分钟级长程记忆,在 WorldArena 榜单性能超过 Google Veo 3.1 约 10%。

  • ABot-N 导航基座模型:采用层级式 Brain-Action 设计,引入 SAFE-GRPO 强化学习框架。通过三阶段课程学习,使智能体理解「物理可通行」与「社会合规」的差异,在 VLN-CE 等 7 大权威导航基准中刷新 SOTA 纪录。

  • ABot-M 操作基座模型:基于动作流形学习(Action Manifold Learning)假设,利用 DiT 架构直接预测连续动作轨迹。实验数据显示,其在 RoboCasa 任务成功率较 NVIDIA GR00T-N1 提升 11%,在 RoboTwin 任务较 π0.5 提升 44%。

  • ABot-Claw 具身 Harness 架构:采用「云端大脑(L3/L4 规划)+ 边缘响应(L1/L2 实时控制)」的分层设计。该架构支持跨具身共享空间记忆(Spatial Memory),新接入设备可通过混合检索零成本继承全局 Context。

  • ABot-3DGS 自动化重建系统:针对手机拍摄、航测等稀疏输入,构建「粗建模→高保真修复→蒸馏回环」流程,实现厘米级精度与光照一致性的 3D 场景自动化生成。


(@高德技术)


3、通义实验室发布 Fun-ASR 1.5:支持 30 种语言与 20+ 方言口音+多语言混合转录

通义实验室官方正式发布 Fun-ASR 1.5 端到端语音识别模型更新。该版本基于数十万小时真实方言数据与数千万小时通用语音数据训练,实现了单模型对 30 种全球语言及汉语七大方言体系的深度覆盖,旨在解决方言长尾场景及跨语种混合识别的工业化落地难题。


  • 方言识别精度大幅提升:模型覆盖官话、吴、湘、赣、客、闽、粤七大方言及 20+ 地区口音。在典型方言场景下,字错误率(CER)相对下降 56.2%,其中 5 种方言准确率超 90%,15 种方言超 80%。

  • 原生支持 Code-Switching(跨语种混合识别):单模型集成中文、英、日、韩、法、德等 30 种主流语言。模型可自动检测语种切换并实时转写,无需开发者预设语种标签或调用多个模型。

  • 古诗词专项优化:针对文言语法、吟诵停顿及异体字,构建了覆盖先秦至近现代的专用语音-文本对齐语料库,内部评测集字符级准确率达到 97%。

  • 标准化文本输出(ITN)与智能标点:增强了文本归一化能力,可自动将口语转化为规范格式(如“五万八”转为“58000”),并基于语义自动插入标点,降低后期人工校对成本。


试用链接:

https://modelscope.cn/studios/iic/FunAudio-ASR


( @Ali_TongyiLab@X,@通义实验室)



02 有亮点的产品

1、Dairy Queen 在北美多家得来速餐厅上线 AI 点餐聊天机器人

图片


美国连锁快餐品牌 Dairy Queen 近日宣布,将在全美和加拿大多家门店的得来速车道启用由 Presto 公司开发的语音 AI 聊天机器人,用于接受点餐并进行主动加购推荐,希望借此加快点餐速度、提升客单价。


这一系统已经在部分门店完成测试,Dairy Queen 认为 AI 有助于缓解高峰期压力,并在推荐额外食品方面表现积极。Dairy Queen 此次大规模导入的技术来自专注餐饮语音 AI 的公司 Presto,该公司此前已与 Carl’s Jr、Hardee’s、Taco John’ s 和 Fazoli’s 等连锁品牌合作,在其得来速车道部署类似系统。不过,彭博社在 2023 年的一篇报道中披露,Presto 的「AI 得来速」在实际运行中可能仍有海外人类员工辅助,例如来自菲律宾等地的远程工作人员,协助处理复杂或识别困难的订单情境。


整体来看,快餐行业正加速引入 AI 技术,从语音点餐到员工辅助工具,应用形态多元,但在准确率、顾客体验、隐私与员工管理等层面仍存在广泛争议。Dairy Queen 此次与 Presto 的合作,将成为观察 AI 在得来速场景中商业可行性与社会接受度的重要案例之一,其后续表现或将影响更多连锁品牌在自动化和人工服务之间的取舍与平衡。


(@极客公园)

2、Aryza 收购 Umbrella Tech:集成超逼真语音智能体,实现 100+ 语言全量合规监控

Aryza 宣布完成对 Umbrella Tech 的收购,将其基于语音的智能体技术整合至 Aryza Engage 对话式 AI 平台。此次交易旨在通过高拟人化语音和多语言支持,实现金融催收、客户服务及合规审计的端到端自动化


  • 100+ 语言的超逼真语音交互:Umbrella Tech 提供具备高拟人度(Hyper-realistic)的语音能力及先进的语音分析技术,支持跨国市场的大规模自动化催收与追讨任务

  • 全量覆盖的自动化质量保证(QA):该平台突破了传统的随机抽样模式,可对 100% 的客户交互记录进行实时监控和合规性审计,提升运营监督水平。

  • 24/7 全渠道智能体闭环:通过集成 agentic AI,系统可在全渠道环境中自主执行决策与互动逻辑,使人工团队能够从重复性劳动中脱离,专注于高价值复杂案例。

  • 信贷生命周期端到端集成:此次收购完善了 Aryza 在数据、分析、自动化三位一体的布局,将语音智能体直接嵌入信贷发放至债务回收的完整业务流


(@Pulse2.0)

3、Synthan Sciences 开启种子轮融资:构建物理 AI 多层安全架构,覆盖硬件及身份验证协议

图片

George Bancs,Synthan Sciences 的创始人


总部位于阿布扎比的 Synthan Sciences 宣布筹备种子轮融资,旨在为其开发的物理 AI(Physical AI)安全基础设施提供资金支持。该公司构建了一套针对自主机器(Autonomous Machines)的专有安全架构,意在为人形机器人、无人驾驶设备等硬件在现实场景的规模化部署提供信任层


  • 三维多层安全架构:该技术框架跨越硬件层、协议层及身份验证层,为物理 AI 系统提供实时监控与安全认证。

  • ADGM 监管沙盒合规:公司在阿布扎比全球市场(ADGM)框架下运行,利用其监管沙盒开发针对深度科技创新的 AI 治理与安全法律标准。

  • 机器身份验证系统:核心功能包含针对自主机器的唯一身份识别与验证协议,防止物理实体的非授权控制

  • 理论体系支撑:技术栈基于《Syncyclopedia of Synthanity》三卷本理论体系,涵盖了合成智能(Synthetic Intelligence)在科学、法律及文化层面的基础设施需求。


(@einpresswire)


4、POSTECH 研发光感应无声语音穿戴设备:利用 CNN-Transformer 架构实现 3ms 实时语音合成


图片


韩国浦项科技大学(POSTECH)研究团队开发了一种颈戴式无声语音接口(SSI)。该系统通过光学传感器捕捉喉部皮肤的微小多轴形变,并利用 CNN-Transformer 混合模型将物理运动解码为合成语音,旨在解决极端噪声环境下的通信及言语障碍人士的交互需求。


  • 多轴应变映射传感器(CVOS):采用集成微型摄像头、显微镜头与 LED 的颈圈结构。通过追踪硅胶层内黑色标记点的位移,传感器可捕捉低至 0.02% 的皮肤应变,灵敏度(Gauge Factor)达 3,625,支持多维度肌肉运动矢量映射,优于传统单轴应变片。

  • CNN-Transformer 混合解码流水线:CNN 负责提取应变图谱的局部形变特征,Transformer 建模语音的时间序列模式。经知识蒸馏压缩后,模型参数从 12.4MB 缩减至 3.6MB,单次推理延迟从 18ms 降低至 3ms

  • LoRA 高效微调与识别精度:在 26 个 NATO 语音字母词汇测试中,基础识别准确率为 85.8%。通过引入 LoRA(Low-Rank Adaptation)技术,新用户仅需 20 个样本即可实现 80% 的适配准确率

  • 极端环境下的高信噪比(SNR):系统在 90dB 白噪声(等同于建筑工地或自动武器射击环境)下性能无衰减。其实测信噪比达 33.75dB,显著高于传统商业级肌电图(EMG)系统的 10.17dB。

  • 基准标定与运动鲁棒性:系统通过测量「初始残余压力图」自动补偿佩戴松紧度及位置偏差带来的信号漂移。当前硬件采样率为 50Hz,适配喉部肌肉运动的生物频率范围。


( @thebrighterside)



03 有态度的观点

1、英伟达生成式 AI 研究负责人刘明宇:从生成式 AI 到 Physical AI,下一阶段正在到来

图片


Ming-Yu Liu 现任 NVIDIA 副总裁、Generative AI Research 负责人。在 NVIDIA GTC 2026 的演讲《How Open World Models are Powering the Next Breakthroughs in Physical AI》中,他系统介绍了 Cosmos 的最新进展,重点讨论开放世界模型如何通过生成物理数据、视频理解与未来预测,推动 Physical AI 和机器人开发


AI 的发展正经历从「生成式 AI」到「智能体 AI」,并最终迈向「物理 AI」的演进。生成式 AI 的成功依赖于互联网上沉淀的海量文本和视觉数据,智能体 AI 的成功则得益于能够大规模生成并验证各种数字工具的使用数据。如今,物理 AI 的终极目标是让 AI 跨越数字世界,去直接控制车辆、类人机器人等真实的物理工具,这也标志着人工智能发展的下一个核心阶段。


然而,物理 AI 当前面临着一个严重的「鸡生蛋,蛋生鸡」的数据死结。以类人机器人为例,由于现实环境中部署的机器人数量远远不够,导致无法收集到海量的真实物理训练数据;没有足够的数据,就无法开发出强大的机器人模型;而模型能力不足,又直接导致市场不愿意购买和部署这些机器人。因此,要想真正开启物理 AI 革命,首要任务就是打破这个数据壁垒,设法获取初始的大规模高质量训练数据。


为了解决这一行业痛点,NVIDIA 推出了 Cosmos 计划,旨在通过构建开放世界模型来生成海量的物理 AI 数据。Cosmos 采用了一种「数据金字塔」策略:最底层先从互联网海量视频数据中吸收物理世界的动态规律,建立能够模拟现实的世界模型;中层利用该模型结合物理引擎,生成大量贴近机器人视角的合成数据;顶层再辅以少量真实的机器人操作数据,将机器人的视觉观察与具体动作精准对应。通过集齐世界模型、合成数据与真实数据,开发者就能彻底突破数据限制,构建出强大的物理智能体。


(@Z Potentials)



04 社区黑板报

招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)


1、IEEE SLT 2026 SmartGlasses 挑战赛盛大开启!聚焦第一视角下的真实社交语音交互

图片


最近,像豆包、千问 Omni等新一代语音对话模型的惊艳表现引发了广泛关注,它们展示了极其流畅的 语音交互能力。另一方面,具备“听、看、说”的智能眼镜也犹如雨后春笋般的越来越普及。然而,这些模型大多仍依赖于较为理想的使用环境。戴上 AI 智能眼镜,「行走的大模型」的「自然交互」还能否经受住真实世界的考验?


目前的语音处理系统在面对智能眼镜带来的独特挑战时,依然面临瓶颈:智能眼镜随佩戴者穿梭于办公室和嘈杂街头等高度动态的声学环境中;在真实的社交场景下,系统不仅要应对第一视角下的复杂非稳态噪声,更要处理频繁的抢话、重叠以及长篇幅的语用逻辑。这正是目前穿戴式语音系统从“演示”走向“商用”必须跨越的难题。


为了打破这一瓶颈,推动技术迈向真实的“类人”交互水平,由西北工业大学 ASLP 实验室联合上海交通大学、南京大学、中国科学技术大学、南洋理工大学、华为、希尔贝壳、Rokid等多家单位,发起 SmartGlasses (Egocentric Speech Interaction on AI Glasses) 挑战赛。首届挑战赛将在语音旗舰会议 IEEE SLT 2026 上举办。


详细链接以及报名方式:

https://mp.weixin.qq.com/s/BN6My5ZPTgkuyYD9NRQlqA

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

作者提示:个人观点,仅供参考

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    关键词
    // 相关帖子
    Coming soon...
    • 0
    Fun-ASR 1.5 发布更新:支持日韩等 30 种语言+汉语方言+多语言混合转录丨日报RTRTE_Dev_Comm