Grok 发布语音 API,支持实时 X 数据搜索;腾讯发布混元实时世界模型 1.5,开放个人体验丨日报

图片

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@瓒an、@鲍勃

01 有话题的技术

1、腾讯混元发布国内首个开放体验的实时世界模型

12 月 17 日,腾讯混元发布世界模型 1.5(Tencent HY WorldPlay)。

据悉,混元世界模型 1.5 是国内首个开放体验的实时世界模型,用户输入文字描述或者图片即可创建专属的互动世界。

同时,混元世界模型 1.5(WorldPlay) 首次开源了业界最系统、最全面的实时世界模型框架,涵盖数据、训练、流式推理部署等全链路、全环节,并提出了重构记忆力、长上下文蒸馏、基于 3D 的自回归扩散模型强化学习等算法模块。

值得一提的是,混元世界模型 1.5 能够让用户在生成的世界里随意移动探索:离开某个区域再次返回时,模型能够「记住」该区域的三维结构,呈现前后一致的场景。

另外,模型支持多样化的交互体验、长范围的 3D 一致性、实时的交互生成(可以按照 24 FPS 的速度生成 720P 的高清视频)。

目前,用户可以在腾讯混元 3D 官网申请使用。

在线体验网站:

https://3d.hunyuan.tencent.com/sceneTo3D?tab=worldplayGithub


链接:

https://github.com/Tencent-Hunyuan/HY-WorldPlayHugging


Hugging Face: 

https://huggingface.co/tencent/HY-WorldPlay


项目主页:

https://3d-models.hunyuan.tencent.com/world/

( @APPSO)


2、xAI 发布 Grok Voice Agent API:原生支持多模态交互,响应速度 < 1 秒


Grok Voice Agent API 在特斯拉汽车里使用案例。例如,告诉 Grok 规划一次公路旅行,它会在 X 上搜索推荐、计算最优路线并添加停靠点,在几秒钟内生成完整行程。

xAI 推出 Grok Voice Agent API,允许开发者集成具备实时数据搜索、工具调用和多语言能力(支持数十种语言)的语音智能体。该 API 在 Big Bench Audio 评测中排名第一,平均首音频响应时间(Time-to-First-Audio)低于 1 秒。


  • Big Bench Audio 评测第一:Grok Voice Agent API 在独立验证的 Big Bench Audio 评测中得分 95%,显示其在音频推理方面的领先能力。


图片


  • 平均首次音频响应时间 < 1 秒:比最接近的竞争对手快近 5 倍,显著降低用户等待延迟。

  • API 价格:$0.05/分钟:相较于 OpenAI Realtime API(保守估计 >$0.10/分钟)等竞品价格更低,具备成本优势。


图片


  • 多语言支持与情感表达:支持数十种语言,可无缝切换,并在发音、韵律等方面通过盲测优于 OpenAI Realtime API;支持 [whisper]、[sigh]、[laugh] 等听觉提示,增强真实感。


图片


  • 原生工具调用能力:支持 web_search、x_search 以及自定义函数调用 (nav_search),允许智能体执行实时任务。


Grok Voice Agent API 目前已通过 xAI API 开放,兼容 OpenAI Realtime API 规范。xAI 计划在未来几周内发布独立的 TTS 和 STT 端点,以及性能更优的音频模型。

https://x.ai/news/grok-voice-agent-api

( @xAI Blog)


3、Gemini 3 Flash 正式上线,全球免费享 Pro 级智商

今天凌晨,Gemini 3 Flash 正式发布,直接对标 OpenAI 和 Anthropic 的旗舰模型,官方号称比 2.5 Pro 速度快 3 倍,价格砍到 3 Pro 的四分之一,性能还不降反升。


从今天开始,用户可以在 Gemini 产品线中体验到 Gemini 3 Flash(Fast/Thinking)和 Gemini 3 Pro。


基准测试结果显示,Gemini 3 Flash 保留了 Pro 级别的推理能力,但延迟、成本直接降到 Flash 级别。


图片


具体来说,在 GPQA Diamond 这种博士级推理测试里,它能拿到 90.4% 的成绩,跟那些体积更大的前沿模型打得有来有回。而 MMMU Pro 测试 Gemini 3 Flash 直接拿下 81.2%,达到业界最先进水平,跟自家的 3 Pro 表现相当。


数据显示,Gemini 3 Flash 的 Token 消耗比 2.5 Pro 少了三成,速度快三倍,价格更是压到了输入 0.5 美元/百万 Token,输出 3 美元/百万 Token 的地板价。


图片


此外,Gemini 3 Flash 的亮点还在于多模态能力,它能更快地处理视觉、音频等输入,把「看见、听见、理解」串成一条相对顺滑的链路,适合需要即时反馈的交互场景。

( @APPSO)


02 有亮点的产品

1、Meta AI 眼镜重磅升级:新增「对话聚焦」和 Spotify 视觉配乐功能

图片


12 月 17 日,Meta 公司宣布对其 Ray-Ban Meta 和 Oakley Meta HSTN 智能眼镜进行软件更新(v21),推出了两项关键新功能:「对话聚焦」以增强嘈杂环境中的听力清晰度,以及与 Spotify 合作的「视觉配乐」功能。


本次更新中最具实用性的功能是「对话聚焦」,该功能利用 AI 眼镜的开放式扬声器和人工智能技术,能够放大对话者的声音,从而帮助用户在嘈杂的环境,如繁忙的餐厅、酒吧或通勤列车中,更清晰地听到对方说话。


另一项引人注目的更新是与 Spotify 的合作。智能眼镜现在能够根据用户当前视野中的内容自动播放匹配的歌曲。


例如,当你看向一张专辑封面时,眼镜可以播放该歌手的歌曲;当你看着装饰有礼物的圣诞树时,它会播放节日音乐。Meta 承认这项功能更多是「噱头」,但它展示了公司如何思考将用户「所见」与应用中的「所为」联系起来的潜力。


(@极客公园、@aibase)



2、AI 六小龙抢跑 IPO:MiniMax、智谱均已通过港交所聆讯

图片


12 月 17 日,腾讯新闻《一线》从不同信源处获悉,「AI 六小龙」MiniMax 和智谱 AI,均于本周初获得了中国证监会备案,并参与了港交所的上市聆讯。


腾讯新闻《一线》独家获悉,MiniMax 于 12 月 17 日通过了港交所聆讯。针对智谱 AI 的聆讯事宜,市场也有传闻称其于 12 月 16 日在港参与并通过了聆讯,腾讯新闻《一线》从多位相关人士处证实了该消息。但暂未能获得上述两家公司置评。


除此之外,MiniMax 计划于 2026 年 1 月在港挂牌上市,因为下周开始(即 12 月 20 日),香港开始进入圣诞节假期。暂未知智谱后续的上市安排。


公开资料显示,MiniMax 的保荐人为瑞银等多家投行,智谱 AI 的保荐人则为中金等多家投行。MiniMax 曾于今年 6 月在港通过秘交申请上市,是首个在港提交 IPO 的国内 AI 大模型公司。


这两家公司可能是内地企业赴港上市「报备制」以来,在港过聆讯最快的案例。


公开资料显示,MiniMax 的投资人包括阿里巴巴、明势创投、红杉、高瓴以及腾讯、IDG 等多家机构。


(@腾讯科技)


03 有态度的观点 

1、罗福莉首次站台小米演讲,揭秘 MiMo 大模型和背后团队

图片


昨天,小米举办了年度「人车家全生态」合作伙伴大会,备受关注的 Xiaomi MiMo 大模型负责人、拥有「AI 天才少女」之称的罗福莉也迎来入职后首秀。其对近期发布的 Xiaomi MiMo-V2-Flash 开源 MoE 模型进行了介绍。


据悉,模型推理速度十分快。罗福莉解释称,MiMo-V2-Flash 围绕极致推理效率设计了模型结构,通过 3 层 MTP 推理加速并行 Token 验证,实现了 2.0~2.6 倍的推理速度提升。


MiMo-V2-Flash 凭借总参数 309B(激活 15B),实现了代码和 Agent 评测基准上全球开源模型 Top2,且初步具备模拟世界的能力。


值得一提的是,罗福莉还谈到了下一代智能体系统,认为下一代智能体系统不是一个「语言模拟器」,而是一个真正能够理解世界、并与之共存的「智能体」。


( @APPSO)



04 社区黑板报 


招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)


1、招聘:Unicorn Blocks 等你来,一起定义下一代智能玩具!


公司描述:Unicorn Blocks 是一家以 AloT 为核心产品形态的创新科技公司,致力于通过人工智能技术定义积木机器人的未来。我们的使命是「和孩子一起创造童话世界」,《玩具总动员》中的角色来到我们的世界。


核心团队:由海外常春藤联盟及国内 C9 高校顶尖人才组成,涵盖产品设计、AI 算法、硬件工程等跨领域专家。公司已完成头部机构领投的种子轮融资,正处于高速发展阶段,期待你的加入共同书写新篇章!


岗位职责


  • 设计并实现基于大模型高并发、低延时的 AI Agent 系统,保障积木硬件的对话交互效果

  • 参与定义并设计开发积木陪伴领域的 Agent 记忆系统,赋予积木机器人独特的灵魂

  • 参与 Agent 的效果优化,包括端到端延时、算法效果、成本降低等多方面

  • 全栈参与产品网站、小程序和 App 相关的前后端开发,服务器运维与集群管理


岗位要求


  • 本科及以上学历,计算机科学、人工智能或相关专业

  • 全栈扎实的编程能力,熟悉至少一门前后端开发语言(Python、Golang、Java、Nodejs)

  • 熟悉后端架构与云原生技术,具备高并发、分布式系统开发经验;

  • 优秀的学习能力、自驱力、问题分析与解决能力

  • 了解 Prompt Engineering、AI Agent、RAG 等技术,有使用 Langchain、Coze 等经验


岗位亮点


定义下一代智能玩具


  • 参与全球首款 AI 自适应积木开发,你的代码将赋予积木「感知-思考-创造」能力


超速成长体系


  • 团队扁平化:团队完全扁平化,你可以 Challenge 任何不认同的观点,共建团队共识

  • 技术商业化:从 0 到 1 负责一个产品的诞生,打通技术到产品再到商业落地的思维闭环

  • 参与从产品设计到量产的全流程,6 个月实习=传统企业 2 年经验密度创造全球影响力

  • 产品全球性:作品将进入数万家庭,成为 Z 世代儿童的「第一块 AI 积木」夯实出海经验:跟业内最优秀的出海企业学习出海经验,并亲身经历产品出海全流程


个人加分项


  • 参与过有影响力的开源项目

  • 参与 ACM/ICPC、NOI/IOI、Kaggle 等比赛,取得一定的名次

  • 参与开发过 AI Agent 相关的产品


有兴趣请投递简历到:

Bruce.Unicorntoy@gmail.com


图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

作者提示:个人观点,仅供参考

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    关键词
    // 相关帖子
    Coming soon...
    • 0
    Grok 发布语音 API,支持实时 X 数据搜索;腾讯发布混元实时世界模型 1.5,开放个人体验丨日报RTRTE_Dev_Comm