Grok 发布语音 API，支持实时 X 数据搜索；腾讯发布混元实时世界模型 1.5，开放个人体验丨日报

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@瓒an、@鲍勃

01 有话题的技术

1、腾讯混元发布国内首个开放体验的实时世界模型

12 月 17 日，腾讯混元发布世界模型 1.5（Tencent HY WorldPlay）。

据悉，混元世界模型 1.5 是国内首个开放体验的实时世界模型，用户输入文字描述或者图片即可创建专属的互动世界。

同时，混元世界模型 1.5（WorldPlay）首次开源了业界最系统、最全面的实时世界模型框架，涵盖数据、训练、流式推理部署等全链路、全环节，并提出了重构记忆力、长上下文蒸馏、基于 3D 的自回归扩散模型强化学习等算法模块。

值得一提的是，混元世界模型 1.5 能够让用户在生成的世界里随意移动探索：离开某个区域再次返回时，模型能够「记住」该区域的三维结构，呈现前后一致的场景。

另外，模型支持多样化的交互体验、长范围的 3D 一致性、实时的交互生成（可以按照 24 FPS 的速度生成 720P 的高清视频）。

目前，用户可以在腾讯混元 3D 官网申请使用。

在线体验网站：

https://3d.hunyuan.tencent.com/sceneTo3D?tab=worldplayGithub

链接：

https://github.com/Tencent-Hunyuan/HY-WorldPlayHugging

Hugging Face:

https://huggingface.co/tencent/HY-WorldPlay

项目主页：

https://3d-models.hunyuan.tencent.com/world/

( @APPSO)

2、xAI 发布 Grok Voice Agent API：原生支持多模态交互，响应速度 < 1 秒

Grok Voice Agent API 在特斯拉汽车里使用案例。例如，告诉 Grok 规划一次公路旅行，它会在 X 上搜索推荐、计算最优路线并添加停靠点，在几秒钟内生成完整行程。

xAI 推出 Grok Voice Agent API，允许开发者集成具备实时数据搜索、工具调用和多语言能力（支持数十种语言）的语音智能体。该 API 在 Big Bench Audio 评测中排名第一，平均首音频响应时间（Time-to-First-Audio）低于 1 秒。

Big Bench Audio 评测第一：Grok Voice Agent API 在独立验证的 Big Bench Audio 评测中得分 95%，显示其在音频推理方面的领先能力。

平均首次音频响应时间 < 1 秒：比最接近的竞争对手快近 5 倍，显著降低用户等待延迟。
API 价格：$0.05/分钟：相较于 OpenAI Realtime API（保守估计 >$0.10/分钟）等竞品价格更低，具备成本优势。

多语言支持与情感表达：支持数十种语言，可无缝切换，并在发音、韵律等方面通过盲测优于 OpenAI Realtime API；支持 [whisper]、[sigh]、[laugh] 等听觉提示，增强真实感。

原生工具调用能力：支持 web_search、x_search 以及自定义函数调用（nav_search），允许智能体执行实时任务。

Grok Voice Agent API 目前已通过 xAI API 开放，兼容 OpenAI Realtime API 规范。xAI 计划在未来几周内发布独立的 TTS 和 STT 端点，以及性能更优的音频模型。

https://x.ai/news/grok-voice-agent-api

( @xAI Blog)

3、Gemini 3 Flash 正式上线，全球免费享 Pro 级智商

今天凌晨，Gemini 3 Flash 正式发布，直接对标 OpenAI 和 Anthropic 的旗舰模型，官方号称比 2.5 Pro 速度快 3 倍，价格砍到 3 Pro 的四分之一，性能还不降反升。

从今天开始，用户可以在 Gemini 产品线中体验到 Gemini 3 Flash（Fast/Thinking）和 Gemini 3 Pro。

基准测试结果显示，Gemini 3 Flash 保留了 Pro 级别的推理能力，但延迟、成本直接降到 Flash 级别。

具体来说，在 GPQA Diamond 这种博士级推理测试里，它能拿到 90.4% 的成绩，跟那些体积更大的前沿模型打得有来有回。而 MMMU Pro 测试 Gemini 3 Flash 直接拿下 81.2%，达到业界最先进水平，跟自家的 3 Pro 表现相当。

数据显示，Gemini 3 Flash 的 Token 消耗比 2.5 Pro 少了三成，速度快三倍，价格更是压到了输入 0.5 美元/百万 Token，输出 3 美元/百万 Token 的地板价。

此外，Gemini 3 Flash 的亮点还在于多模态能力，它能更快地处理视觉、音频等输入，把「看见、听见、理解」串成一条相对顺滑的链路，适合需要即时反馈的交互场景。

( @APPSO)

02 有亮点的产品

1、Meta AI 眼镜重磅升级：新增「对话聚焦」和 Spotify 视觉配乐功能

12 月 17 日，Meta 公司宣布对其 Ray-Ban Meta 和 Oakley Meta HSTN 智能眼镜进行软件更新（v21），推出了两项关键新功能：「对话聚焦」以增强嘈杂环境中的听力清晰度，以及与 Spotify 合作的「视觉配乐」功能。

本次更新中最具实用性的功能是「对话聚焦」，该功能利用 AI 眼镜的开放式扬声器和人工智能技术，能够放大对话者的声音，从而帮助用户在嘈杂的环境，如繁忙的餐厅、酒吧或通勤列车中，更清晰地听到对方说话。

另一项引人注目的更新是与 Spotify 的合作。智能眼镜现在能够根据用户当前视野中的内容自动播放匹配的歌曲。

例如，当你看向一张专辑封面时，眼镜可以播放该歌手的歌曲；当你看着装饰有礼物的圣诞树时，它会播放节日音乐。Meta 承认这项功能更多是「噱头」，但它展示了公司如何思考将用户「所见」与应用中的「所为」联系起来的潜力。

（@极客公园、@aibase）

2、AI 六小龙抢跑 IPO：MiniMax、智谱均已通过港交所聆讯

12 月 17 日，腾讯新闻《一线》从不同信源处获悉，「AI 六小龙」MiniMax 和智谱 AI，均于本周初获得了中国证监会备案，并参与了港交所的上市聆讯。

腾讯新闻《一线》独家获悉，MiniMax 于 12 月 17 日通过了港交所聆讯。针对智谱 AI 的聆讯事宜，市场也有传闻称其于 12 月 16 日在港参与并通过了聆讯，腾讯新闻《一线》从多位相关人士处证实了该消息。但暂未能获得上述两家公司置评。

除此之外，MiniMax 计划于 2026 年 1 月在港挂牌上市，因为下周开始（即 12 月 20 日），香港开始进入圣诞节假期。暂未知智谱后续的上市安排。

公开资料显示，MiniMax 的保荐人为瑞银等多家投行，智谱 AI 的保荐人则为中金等多家投行。MiniMax 曾于今年 6 月在港通过秘交申请上市，是首个在港提交 IPO 的国内 AI 大模型公司。

这两家公司可能是内地企业赴港上市「报备制」以来，在港过聆讯最快的案例。

公开资料显示，MiniMax 的投资人包括阿里巴巴、明势创投、红杉、高瓴以及腾讯、IDG 等多家机构。

（@腾讯科技）

03 有态度的观点

1、罗福莉首次站台小米演讲，揭秘 MiMo 大模型和背后团队

昨天，小米举办了年度「人车家全生态」合作伙伴大会，备受关注的 Xiaomi MiMo 大模型负责人、拥有「AI 天才少女」之称的罗福莉也迎来入职后首秀。其对近期发布的 Xiaomi MiMo-V2-Flash 开源 MoE 模型进行了介绍。

据悉，模型推理速度十分快。罗福莉解释称，MiMo-V2-Flash 围绕极致推理效率设计了模型结构，通过 3 层 MTP 推理加速并行 Token 验证，实现了 2.0～2.6 倍的推理速度提升。

MiMo-V2-Flash 凭借总参数 309B（激活 15B），实现了代码和 Agent 评测基准上全球开源模型 Top2，且初步具备模拟世界的能力。

值得一提的是，罗福莉还谈到了下一代智能体系统，认为下一代智能体系统不是一个「语言模拟器」，而是一个真正能够理解世界、并与之共存的「智能体」。

( @APPSO)

04 社区黑板报

招聘、项目分享、求助……任何你想和社区分享的信息，请联系我们投稿。（加微信 creators2022，备注「社区黑板报」）

1、招聘：Unicorn Blocks 等你来，一起定义下一代智能玩具！

公司描述：Unicorn Blocks 是一家以 AloT 为核心产品形态的创新科技公司，致力于通过人工智能技术定义积木机器人的未来。我们的使命是「和孩子一起创造童话世界」，《玩具总动员》中的角色来到我们的世界。

核心团队：由海外常春藤联盟及国内 C9 高校顶尖人才组成，涵盖产品设计、AI 算法、硬件工程等跨领域专家。公司已完成头部机构领投的种子轮融资，正处于高速发展阶段，期待你的加入共同书写新篇章！

岗位职责

设计并实现基于大模型高并发、低延时的 AI Agent 系统，保障积木硬件的对话交互效果
参与定义并设计开发积木陪伴领域的 Agent 记忆系统，赋予积木机器人独特的灵魂
参与 Agent 的效果优化，包括端到端延时、算法效果、成本降低等多方面
全栈参与产品网站、小程序和 App 相关的前后端开发，服务器运维与集群管理

岗位要求

本科及以上学历，计算机科学、人工智能或相关专业
全栈扎实的编程能力，熟悉至少一门前后端开发语言（Python、Golang、Java、Nodejs）
熟悉后端架构与云原生技术，具备高并发、分布式系统开发经验；
优秀的学习能力、自驱力、问题分析与解决能力
了解 Prompt Engineering、AI Agent、RAG 等技术，有使用 Langchain、Coze 等经验

岗位亮点

定义下一代智能玩具

参与全球首款 AI 自适应积木开发，你的代码将赋予积木「感知-思考-创造」能力

超速成长体系

团队扁平化：团队完全扁平化，你可以 Challenge 任何不认同的观点，共建团队共识
技术商业化：从 0 到 1 负责一个产品的诞生，打通技术到产品再到商业落地的思维闭环
参与从产品设计到量产的全流程，6 个月实习=传统企业 2 年经验密度创造全球影响力
产品全球性：作品将进入数万家庭，成为 Z 世代儿童的「第一块 AI 积木」夯实出海经验：跟业内最优秀的出海企业学习出海经验，并亲身经历产品出海全流程

个人加分项

参与过有影响力的开源项目
参与 ACM/ICPC、NOI/IOI、Kaggle 等比赛，取得一定的名次
参与开发过 AI Agent 相关的产品

有兴趣请投递简历到：

Bruce.Unicorntoy@gmail.com

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

作者提示：个人观点，仅供参考

Grok 发布语音 API，支持实时 X 数据搜索；腾讯发布混元实时世界模型 1.5，开放个人体验丨日报

01 有话题的技术

1、腾讯混元发布国内首个开放体验的实时世界模型

2、xAI 发布 Grok Voice Agent API：原生支持多模态交互，响应速度 < 1 秒

Grok Voice Agent API 在特斯拉汽车里使用案例。例如，告诉 Grok 规划一次公路旅行，它会在 X 上搜索推荐、计算最优路线并添加停靠点，在几秒钟内生成完整行程。

3、Gemini 3 Flash 正式上线，全球免费享 Pro 级智商

02 有亮点的产品

1、Meta AI 眼镜重磅升级：新增「对话聚焦」和 Spotify 视觉配乐功能

2、AI 六小龙抢跑 IPO：MiniMax、智谱均已通过港交所聆讯

03 有态度的观点

1、罗福莉首次站台小米演讲，揭秘 MiMo 大模型和背后团队

04 社区黑板报

1、招聘：Unicorn Blocks 等你来，一起定义下一代智能玩具！

分类

关键词