Meta AI 推出全语种语音识别系统,支持 1600+语言;谢赛宁、李飞飞、LeCun 联手发布「空间超感知」AI 框架丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@Jerry fong,@鲍勃
01有话题的技术
1、OpenAI 新模型疑似 GPT 5.1,年底或将正式发布
OpenRouter 平台在 11 月 7 日深夜上线了一款全新隐名模型「Polaris Alpha」,被业内普遍认为是 GPT 5.1 的测试版本。
该模型目前已开放 API 调用,最大 context 容量为 256K,单次最大输出可达 128K,知识库截止时间为 2024 年 10 月,但暂不支持推理模式。
Polaris 在文本生成、文案创意和编程任务中表现稳定,文风具有典型的「GPT 系」特征。
部分用户通过测试发现,该模型在处理长文本输入时具备自我纠错能力,能够在二次运行中修正错误信息。其在编程场景下可快速生成小游戏代码,并支持网页设计,显示出一定的美学特色。
值得注意的是,OpenAI CEO Sam Altman 曾在此前明确表示,ChatGPT 将在年底推出 NSFW 模式(成人模式)。在 Polaris 的测试版本中,已有相关功能的迹象出现,这进一步加深了外界对其与 GPT 5.1 关联的猜测。
据传,GPT 5.1 预计将在 11 月中正式发布。
试用链接:
https://openrouter.ai/chat
(@APPSO)
2、谢赛宁 x 李飞飞 x LeCun 联手发布「空间超感知」AI 框架
据新智元报道,近日,谢赛宁、李飞飞与 Yann LeCun 联合发布论文《Cambrian-S:迈向视频中的空间超感知》,提出全新 AI 范式,旨在突破现有大语言模型在感官建模上的局限。
三位学者指出,当前基于 LLM 的多模态模型虽具备强大文本与图像处理能力,但在空间认知与预测性世界建模方面仍存在显著缺陷。
他们强调「超感知」是迈向超级智能的关键环节,AI 必须具备对视频流进行三维空间理解与长期记忆的能力,才能在现实场景中实现可靠应用。
团队在 Cambrian-S 框架下构建了 VSI-590K 数据集,涵盖 59 万个带有 3D 标注的训练样本,并训练了从 5 亿到 70 亿参数规模的模型。实验结果显示,其空间推理性能较基座模型提升最高达 30%,即使小规模模型也表现突出。
此外,研究团队提出「预测性感知」原型,通过潜在帧预测模块引入「惊异度」机制,用于优化记忆管理与事件切分。该方法在 VSI-Super 基准测试中已超越 Gemini 模型,显示出在长视频理解与空间智能方面的潜力。
研究者强调,单纯依赖规模化与数据扩展无法解决感知问题,开放科学与跨学科研究才是推动 AGI 的必由之路。此次合作不仅在学术界引发广泛关注,也被视为对现有 AI 技术路线的深度挑战。
(@APPSO)
3、Meta AI 推出「全语种」语音识别系统,一口气支持 1600+语言,打破全球语言壁垒!
Meta 的基础人工智能研究(FAIR)团队近日宣布推出 Omnilingual ASR,这是一款创新的自动语音识别系统,能够转录超过 1600 种口语语言。此举旨在弥合现有 AI 工具在语言覆盖上的巨大差距,正式迈向「通用转录系统」的目标。
长期以来,大多数语音识别系统仅专注于少数拥有大量转录音频资源的语言,导致全球 7000 多种语言中,有数千种几乎得不到 AI 支持。Omnilingual ASR 的发布将改变这一现状。Meta 指出,在其支持的 1600 种语言中,有 500 种语言此前从未被任何人工智能系统覆盖。
Omnilingual ASR 的性能令人瞩目:
在测试的 1600 种语言中,系统对 78%的语言实现了低于 10 个字符的错误率。
对于拥有至少 10 小时训练音频的「资源丰富」语言,这一准确率标准达到了 95%的覆盖。
即使是音频时长不足 10 小时的「低资源」语言,也有 36%的语言错误率低于 10 个字符的阈值,为这些群体带来了实用的语音识别功能。
情境学习:将覆盖范围扩展至 5400 种语言。Omnilingual ASR 的一个关键创新是其「自带语言」选项,该功能借鉴大型语言模型的情境学习技术。用户只需提供少量的音频和文本配对样本,系统即可直接从这些样本中学习新语言,无需重新训练或大量的计算资源。Meta 表示,理论上,这一方法有望将 Omnilingual ASR 的覆盖范围扩展到超过 5400 种语言,远远超越了当前的行业标准。
模型开源: Omnilingual ASR 以 Apache2.0 许可证发布,允许研究人员和开发者自由使用、修改和构建模型,包括用于商业用途。模型基于 PyTorch 的 fairseq2 框架构建,提供了从适用于低功耗设备的 3 亿参数版本到追求「顶级准确度」的 70 亿参数版本。
Github:
https://github.com/facebookresearch/omnilingual-asr
(@麋鹿研究所)
02有亮点的产品
1、AI 教师「会画图」了:ChatTutor 上线,边讲边画、实时推演,教学效果直逼真人名师
AI 教育迎来质的飞跃。今日,全新一代可视化交互式 AI 教师系统——ChatTutor 正式发布,彻底打破传统 AI 问答「纯文字输出」的局限,通过右侧实时同步画板,实现「边讲解、边绘制、边推演」的类人教学体验。当用户提问「二次函数如何平移」,AI 不仅口述原理,更在画板上动态绘制曲线、标注顶点、演示变换过程——知识不再抽象,而是看得见、摸得着的视觉逻辑。
五大教学引擎,覆盖核心学科场景
ChatTutor 依托多模态生成技术,构建起覆盖多领域的智能教学矩阵:
数学可视化:函数图像、几何构造、统计图表一键生成,支持动态推导与参数调节;
物理实验模拟:即时绘制力学受力图、运动轨迹、波动传播等,将抽象定律具象化;
逻辑电路交互:可拖拽门电路元件,实时验证时序逻辑与状态转换;
编程逐行教学:支持 Python、JavaScript 等语言,边写代码边解释执行流程与错误排查;
思维导图生成:将复杂概念自动结构化,一键导出用于复习或团队协作。
评测实测:教学逻辑媲美一线教师
AIbase 实测显示,面对「讲解牛顿第二定律在斜面运动中的应用」这类复合问题,ChatTutor 先绘制斜面、标注重力分力与摩擦力,再逐步推导加速度公式,并用颜色区分矢量方向与变量关系。整个过程逻辑清晰、节奏得当,远超传统「答案搬运」式 AI 助手。
从「会答题」到「会教学」:AI 教育的分水岭
过去,AI 教育工具多聚焦于题库匹配与答案生成;而 ChatTutor 首次将教学法(Pedagogy)融入 AI 内核——通过视觉引导、分步拆解与互动反馈,模拟人类教师的启发式教学。这不仅提升理解效率,更培养用户的结构化思维能力。
AIbase 认为,ChatTutor 的出现,标志着 AI 教育正式从「信息检索工具」升级为「认知协作伙伴」。当 AI 不仅能告诉你「是什么」,还能清晰展示「为什么」和「怎么做」,知识获取的门槛将前所未有地降低。未来,无论是学生自学、教师备课,还是企业培训,这样的「可视化 AI 导师」或将成为标配。教育的智能化,正从这里真正开始。
项目地址:
https://github.com/sheepbox8646/ChatTutor
(@AIBase)
2、Google TV 正式接入 Gemini,用情境化问答革新家庭娱乐和学习方式
谷歌周一宣布,将开始在其 Google TV 流媒体播放器上推出 Gemini 语音助手,正式取代原有的 Google Assistant,此举是公司将 Gemini 整合进所有平台战略的重要一步。
此次升级旨在通过更先进的 AI 能力,使用户能够以更自然、更像对话的方式访问内容和各项功能。例如,用户现在可以提出像「我喜欢剧情片,但我妻子喜欢喜剧片。有什么电影我们可以一起看吗?」等复杂的跨情境查询,或者快速了解追看剧集的剧情,如「《古战场传奇》上一季结尾发生了什么?」.
Gemini 的功能不仅限于娱乐,它还将手机上 AI 助手的通用能力带到了电视上,用户可以提问「请给我的三年级孩子解释一下火山为什么会喷发」等学习性问题,甚至通过 YouTube 视频指导 DIY 项目或食谱。用户只需按下遥控器上的麦克风按钮即可唤醒助手,此次更新将在未来几周内向 18 岁及以上的用户推出。
这一部署是意料之中的,此前谷歌已在今年的 CES 展会上宣布 Gemini 将登陆 Google TV,并已确认其将支持包括 Walmart Onn4K Pro 流媒体设备以及未来的 2025 款海信和 TCL 电视机型。
(@AIBase)
03有态度的观点
1、咨询巨头 CEO:不会用 AI 的员工将被清退
据《华尔街日报》报道,咨询巨头埃森哲(Accenture)CEO 朱莉·斯威特近日在面向投资者的讲话中表示,公司正在加速推动人工智能应用,并将「清退」无法掌握 AI 技能的员工。
她透露,埃森哲已为约 77.9 万名员工中的 70% 提供了生成式 AI 基础培训,但对于那些「再培训已不可行」的员工,公司将要求其离开岗位。
这一举措凸显了企业在数字化转型中的新趋势:员工不再仅担心被 AI 取代,更面临被懂 AI 的同事取代的压力。
斯威特强调,AI 技能已成为核心竞争力,公司将继续在内部推动培训和应用,以确保整体生产力和市场竞争力。
(@APPSO)
2、摩根大通 CEO:随着 AI 发展,未来发达国家每周可能只需上班三天半
据《财富》报道,摩根大通 CEO 杰米 · 戴蒙(Jamie Dimon)日前在美国商业论坛上表示,随着 AI 的快速发展,未来 20 至 40 年内,发达国家的工作周可能缩短至「三天半」。
他强调,AI 将影响「每一项应用、每一个岗位、每一位客户」,并显著提升生产效率和生活质量。
戴蒙指出,摩根大通已成为「活跃的 AI 实验室」,目前约有 2,000 名员工专职开发 AI 系统,约 15 万名员工每周使用大语言模型处理内部文档,银行已部署数百个应用场景,包括欺诈检测、法律审查、对账与营销优化等。此外,超过 20 万名员工正在使用 AI 工具,约 30 万人接受培训。
他同时警告,AI 的普及将导致部分岗位消失,企业与政府必须提前规划再培训、收入援助、岗位转移,甚至在某些情况下的提前退休,以避免社会反弹。在经济层面,戴蒙强调 AI 的建设不同于互联网,属于资本与能源密集型产业,部分项目可能因电力不足而受限。
他提醒投资者应逐案评估数据中心与 AI 基础设施,而非盲目跟风。他直言「部分 AI 项目处于泡沫」,但整体来看,技术最终将带来回报。
值得注意的是,京东创始人刘强东日前在乌镇峰会上也提出类似观点。他预测约 5 年后,中国 90% 家庭将使用智能锁,机器人可在授权后自主入户完成快递配送,届时员工每周可能仅需工作「一天甚至一小时」。
(@APPSO)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻