Google开源医疗语音识别模型MedASR;对话式AI招聘平台Jack&Jill融资2000万美元,按效果付费丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@瓒an、@鲍勃
01 有话题的技术
1、借道日本,腾讯与 Nvidia 达成协议,AI 算力的「避风港」
在美国严密的半导体出口禁令下,一场关于顶级 AI 算力的「暗度陈仓」正在日本大阪悄然上演。
AI 怪盗团 12 月 21 日消息,据英国《金融时报》等多方消息披露,腾讯已通过第三方与 Datasection 达成合作,获得后者位于大阪数据中心内约 15000 块英伟达 Blackwell B200 芯片的使用权。这笔交易的总价值据称超过 12 亿美元(约合 87 亿元人民币)。
在英伟达 H100、B200 等高端芯片被美国商务部严防死守、禁止直接对华出口的当下,这笔交易撕开了全球算力封锁网的一道口子。
完整报道:
https://mp.weixin.qq.com/s/BOK-LgVF0pSIKOLisc_Sdg
(@Al 怪盗团)
2、Google 推出专为医疗场景优化的 ASR 模型「MedASR」,医疗听写 WER 降至 4.6%
Google 推出专为医疗场景优化的 ASR 模型「MedASR」,采用 Conformer 架构并在超过 5000 小时的医疗专用脱敏音频上完成预训练与微调。该模型在放射科及全科医生听写任务中的识别精度显著优于 Gemini 2.5 Pro 和 Whisper v3 Large,旨在为医疗垂直领域的语音转文本应用提供高性能基础。
轻量化 Conformer 架构与 105M 参数量:模型参数规模仅为 105M,基于 Conformer 架构设计,支持通过 AutoModelForCTC 进行高效推理,适用于对延迟和隐私有严苛要求的临床本地化部署。
垂直领域 WER 显著领先:在私有放射科数据集(RAD-DICT)测试中,MedASR 配合 6-gram 语言模型的词错率(WER)仅为 4.6%,远低于 Whisper v3 Large(25.3%)和 Gemini 2.5 Pro(10.0%)。
5000 小时医疗语料库微调:在 LibriHeavy 预训练基础上,引入超过 5000 小时的脱敏医生听写和医患对话数据,涵盖放射、内科、家庭医学等多个子学科的专业术语及医学实体标注。
JAX 与 ML Pathways 训练栈:模型利用 JAX 框架与 Google ML Pathways 系统,在 TPUv4p、TPUv5p/e 硬件上完成大规模分布式训练,优化了复杂矩阵运算的执行效率。
标准音频输入规范与 API 支持:原生支持 16kHz、单声道、int16 格式的音频输入;要求 transformers 库版本为 5.0.0+,支持通过 pipeline 接口实现流式或批处理识别。
发布计划已在 Hugging Face 开源(需签署联系信息共享协议),遵循「Health AI Developer Foundations」使用条款。
Hugging Face:
https://huggingface.co/google/medasr
(@Hugging Face Blog)
3、英伟达开源基础模型 NitroGen,能打遍几乎所有游戏
日前,英伟达公布了其最新开源基础模型「NitroGen」。
官方介绍,NitroGen 是一个统一的视觉到行动模型,可以直接从原始帧中玩游戏。并且能做到将视频游戏帧作为输入,同时输出游戏手柄操作。
值得一提的是,NitroGen 支持后训练,因此模型在面对一款新游戏时,只需轻量微调或适配,就可以快速通用。
官方表示,与使用强化学习的模型不同,NitroGen 是通过在人类游戏视频上进行大规模模仿学习进行训练的。
据悉,NitroGen 通过逆动力学模型从 4 万小时互联网公开视频中「反推」玩家按键,合成海量训练数据,实现纯模仿学习。
当然,团队也指出了模型的不足:NitroGen 在为游戏手柄设计的游戏中表现最佳(例如动作、平台和赛车游戏),而在严重依赖鼠标和键盘的游戏(例如即时战略、多人在线战术竞技)中效果较差。
团队称,NitroGen 的目标是探索是否通过对多样化的人类游戏行为进行大规模训练,能够产生涌现式的通用具身能力,类似于规模扩展如何解锁大型语言模型中的涌现行为。
Hugging Face:
https://huggingface.co/nvidia/NitroGen
(@APPSO)
02 有亮点的产品
1、小米前 89 号董红光首款 AI 硬件曝光,预计发布全球首款带摄像头 AI 耳机
AING 硬迹从多个信源获悉:AI 明星企业光帆科技将于 12 月 23 日举办产品发布会,范围精选控制,已有多个产业内高管及投资人收到邀请。将在发布会上推出全球首款带摄像头 AI 耳机。
这款产品有以下核心亮点:
1)全球首款带摄像头 AI 耳机,独立设备、完全不依赖手机就可以完成一系列应用服务;
2)更强大的是这款硬件背后为 AI 原生交互而生的多模态 AI OS,直接使 AI 原生交互成为可能,打造 always-on 智能助理。
光帆科技能够快速推出产品,得益于其「高 P 团队」:汇集了来自小米、华为、字节、阿里、Minimax 等企业的资深专家,具有深厚的人工智能软硬件及应用开发能力。
据悉从去年 10 月份成立以来,光帆科技一年内连续完成多轮融资,投资方包括韶音、歌尔、联想、宁德、兆易创新等产业巨头。
(@AING 硬迹)
2、融资 2000 万美元种子轮:Jack & Jill 利用对话式 AI 智能体重构招聘流程,按效果付费
由连续创业者 Matt Wilson 创立的英国初创公司「Jack & Jill」宣布完成 2000 万美元种子轮融资,由 Creandum 领投。该平台旨在通过双向的对话式 AI 智能体替代传统的「简历+职位列表」模式,解决当前招聘市场因 AI 自动投递导致的信噪比极低(Signal-to-noise ratio)的问题。
双端 AI 智能体架构 (Dual-Agent System): 平台由面向求职者的「Jack」和面向雇主的「Jill」组成。求职者需通过「Jack」进行 20 分钟的深度 AI 面试以建立动态画像,而「Jill」则根据雇主需求在库中筛选并提拔匹配度最高的候选人。
结构化数据提取替代简历筛选: 针对 LinkedIn 等平台海量投递导致 HR 无法有效审阅的痛点,该系统通过对话交互将求职者的非结构化经验转化为可量化的技能节点,从而在首轮筛选中替代低效的人工简历扫描。
全生命周期职业智能体: 除招聘匹配外,「Jack」侧集成了模拟面试和职业教练功能,利用 LLM 的对话能力在用户非投递期间维持高活跃度,建立长期人才库。
基于录用的佣金商业模式: 不同于传统平台的职位发布费,「Jack & Jill」采取标准化的成功录用佣金制,将 AI 匹配的精度与平台收益直接挂钩。
规模化验证与地域扩张: 该服务已在伦敦市场先行上线并获取约 5 万名用户。本轮融资将重点用于美国市场的扩张以及进一步优化对话式 AI 的行业特定推理能力。
服务目前已在伦敦地区上线并可用,正计划向美国市场推广。
(@TechCrunch)
3、三星联手谷歌,将推出 Gemini AI 冰箱
近期,三星电子表示,将于明年 1 月份正式推出一款搭载 Google AI 模型 Gemini 的新款高端冰箱。
官方表示,该冰箱所搭载的 Gemini 能通过 AI 视觉分析+冰箱内的摄像头,对存储的食材进行识别分析。据介绍,此次升级扩展了冰箱自动识别物品的范围,超越了三星旧款冰箱的 37 种新鲜食品和 50 种包装产品的识别限制。
值得一提的是,Gemini 还能够识别食品容器上的手写或印刷标签,并自动将物品添加到数字购物清单中。
三星表示,冰箱的 Gemini 还支持 AI 食品管理功能,该功能根据用户的消费模式提供成分跟踪、食谱推荐和购物建议。
未来,三星还计划将升级版的 AI 视觉识别技术扩展到自家的葡萄酒冰柜。通过 AI 葡萄酒管理系统,冰箱能够识别存储的葡萄酒瓶,记录名称、品种、年份和存储位置等详细信息;当瓶子被移动或移除时,系统可以实时更新库存。
(@APPSO)
4、Known 获 970 万美元种子轮融资:推出语音 AI 驱动的深度用户画像与约会匹配系统
Known,一家专注于通过技术解决线下约会效率问题的科技初创公司,已成功获得 970 万美元种子轮融资。其核心产品利用语音 AI 进行用户深度画像构建,旨在显著提升匹配成功率和线下约会转化率。
语音 AI 深度画像: 用户通过语音交互完成引导式问答,平均时长 26 分钟,最长达 1 小时 38 分钟。AI 能够基于对话内容进行动态追问,获取比文本输入更丰富、更真实的个人偏好与需求,避免用户在文本输入中常见的自我审查。
80% 线下约会转化率: 在旧金山 Beta 测试阶段,80% 的 AI 推荐匹配最终促成了线下约会,远超传统滑动式(swipe-based)约会应用。
AI 智能体匹配与日程规划: 完成画像后,AI 智能体会向用户推荐潜在匹配。用户可通过 AI 智能体查询更多资料,并在配对成功后,双方需在 24 小时内接受介绍,并再次在 24 小时内确认约会。应用还支持 AI 协助根据用户偏好推荐餐厅,并与日历集成以安排首次约会。
按成功约会付费模式: 在 Beta 阶段,平台对每成功完成一次线下约会收取 30 美元费用,此定价策略旨在鼓励真实互动并减少无效聊天与「放鸽子」现象。
(@TechCrunch)
03 有态度的观点
1、小岛秀夫:做一个给 AI 玩的游戏
知名游戏制作人小岛秀夫上周在接受《日经 Xtrend》采访时,抛出了一系列极具野心的构想。
除了提及正在开发的恐怖游戏《OD》,和处于构想阶段的 PS 独占谍报游戏《Physint》外,他透露自己最想尝试的是两个「听起来有些离谱」的项目:一款在失重环境下游玩的游戏,以及一款专门「拿来给 AI 玩」的游戏。
对于「给 AI 玩的游戏」,小岛秀夫有着清晰的逻辑。他认为目前 AI 的知识储备仍然不足,因此这款游戏将作为 AI 的「学习素材」,旨在让 AI 感到愉悦并帮助其学习。
他大胆预测,AI 将在 5 到 10 年内彻底改变游戏开发的方式,并最终进入更多不同的领域。
针对外界对 AI 的抵触情绪,小岛秀夫表现出了理性且开放的态度。他将 AI 类比为当年的智能手机——起初饱受批评,如今却不可或缺。
他认为 AI 应被视为一种工具,用于根据玩家习惯微调游戏风格,或处理那些重复枯燥的工作,从而让创作者能将精力集中在更具创造性的部分。
重要的是,我们要在思考如何走向正确的同时,以能让人们感到幸福的方向来改进技术。
(@APPSO)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
作者提示:个人观点,仅供参考