Google 发布 Gemma 4 12B,首次支持原生音频输入丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@koki、@鲍勃
01 有话题的技术
1、Google 发布 Gemma 4 12B:首个原生支持音频输入的无编码器模型,16GB 显存即可运行
Google 发布了 Gemma 4 12B,这是其首款支持原生音频输入的中量级多模态模型。该模型采用全新的无编码器(Encoder-free)架构,将视觉与音频处理直接集成在 LLM 主干网络中,旨在 16GB 显存的消费级硬件上实现高性能智能体(agent)推理。
无编码器统一架构(Encoder-free): 舍弃了传统的独立视觉和音频编码器。视觉输入通过轻量化嵌入模块(单矩阵乘法 + 位置编码 + 归一化)处理;音频信号直接映射至文本 Token 空间,由 LLM 主干网络原生处理多模态数据。
16GB 统一内存本地部署: 针对笔记本电脑优化,内存占用不到 26B MoE 模型的一半。在 16GB VRAM 或统一内存环境下即可实现高效率推理,支持离线状态下的多步骤推理与智能体工作流。
多令牌预测(MTP)降噪与加速: 模型内置 MTP 起草器(Drafters),通过并行预测多个 Token 来降低推理延迟,提升生成速度。
原生音频支持: 作为 Gemma 系列首个支持原生音频输入的模型,它能够直接处理原始音频信号,实现离线转录、格式化及翻译,无需依赖外部语音转文字(STT)模块。
Apache 2.0 开源生态适配: 模型权重已在 Hugging Face 与 Kaggle 开放,支持 llama.cpp、vLLM、MLX、Unsloth 等主流推理与微调框架,并配套发布了官方 Skills Repository 技能库。
参考链接:
https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12B/?utm_source
( @blog.google)
2、SoulX-Transcriber 开源:基于 LLM 的端到端多人对话转录模型,SOTA 性能覆盖多项公开基准测试
西北工业大学 ASLP@NPU 团队联合 Moonstep AI 开源了 SoulX-Transcriber。该模型在单一 LLM 框架下实现了话者日志(SD)与语音识别(ASR)的联合建模,解决了多人对话中声音重叠、频繁交替及边界分割不准的痛点。
统一 LLM 建模架构:SoulX-Transcriber 将话者日志(SD)与语音识别(ASR)整合进统一的端到端框架,避免了传统 Pipeline 模式中各模块间的错误累积。
两阶段训练策略(Two-stage Training):第一阶段采用话者感知(Speaker-aware)多任务连续预训练,增强说话人表征学习与边界感知;第二阶段进行监督微调(SFT),优化复杂环境下的属性标注转录。
复杂声学场景鲁棒性:针对真实场景中高度相似的音色、快速的话轮转换(Turn-taking)及语音重叠(Overlapping),模型通过联合建模显著提升了话者边界分割的精度。
覆盖主流基准测试的 SOTA 表现:在 AISHELL-4、AliMeeting 及 AMI 等多人会议数据集上,其转录与话者识别性能均优于目前主流的开源端到端模型。
Demo :
https://soul-ailab.github.io/soulx-transcriber/
论文链接:
http://arxiv.org/abs/2606.02400
GitHub :
https://github.com/Soul-AILab/SoulX-Transcriber
HuggingFace:
https://huggingface.co/Soul-AILab/SoulX-Transcriber
(@社区投稿)
02 有亮点的产品
1、手亿科技获数千万元 Angel++ 轮融资:发布 1/10 成本 POV 具身智能数采方案,支持毫米级手势重建
具身智能数据基础设施供应商手亿科技(Showee)宣布完成数千万元天使++轮融资,为 4 个月内完成的第 3 轮融资。公司旨在通过极低成本(竞品 1/10)、高精度的可穿戴 POV 设备,解决通用机器人大模型训练中高质量手部操作数据稀缺的瓶颈。
轻量化非侵入式 POV 架构: 采用「智能腕带(<100g)+ 头戴式摄像头(<200g)」组合,支持操作者在真实场景(工厂、厨房等)中无感佩戴,实现单日 6 小时以上的全天候 POV 数据采集。
毫米级手部姿态重建: 依托视觉与 IMU(惯性测量单元)多模态融合技术,实现毫米级手部追踪精度及亚度级姿态估计,提供高保真的机器人训练真值。
微秒级硬件同步能力: 系统实现了视觉信息、IMU 运动数据与操作指令在时间维度上的微秒级对齐,解决了多传感器融合中的时空一致性难题。
10 倍级降本与规模化能力: 通过硬件架构优化,将数采设备成本压缩至行业竞品的 10%,支持数万台设备规模化部署以构建千万级高质量数据集。
清华系底层技术支撑: 核心技术源自清华大学自动化系冯建江实验室,基于腕部视角的三维手部重建算法在学术领域具备先发优势。
(@手亿科技 Showee)
2、Aippy 完成数千万美元首轮融资并从赤子城剥离:估值 2.5 亿美元,构建 NLP 驱动的 AI 原生互动社区
AI 互动社区 Aippy(所属主体 NADA AI)宣布完成数千万美元首轮融资,由歌未资本(Glowill Capital)领投,投后估值达 2.5 亿美元。该项目正式从港股上市公司赤子城科技(NewBorntown)剥离独立运营,旨在通过自然语言处理技术(NLP)降低游戏开发门槛,实现互动娱乐内容的 UGC 化。
自然语言驱动的创作工作流:用户无需代码基础,通过纯自然语言描述、语音输入及预设模板即可生成可交互的游戏或创意应用。系统集成 AI 图片素材生成、Preview 实时预览及一键修复功能,将传统游戏开发链路简化为指令输入。
Remix(二创)机制与社区生态:平台支持一键「二创」功能,允许用户在已有作品的逻辑框架上修改参数或素材并重新发布。目前平台 UGC 作品总量已突破 200 万件,DAU 互动率接近 50%。
高增长用户指标:Aippy 核心目标市场为欧美地区。截至目前,全球下载量突破 300 万,MAU(月活跃用户)近 200 万,美国 App Store 评分 4.8 分。自然流量增长占比超过 30%。
底层技术支撑与资源剥离:脱胎于赤子城 AI 体系,利用其自研多模态模型 Boomiix 及 AI 设计平台 KIVI。2025 年赤子城全平台 Token 消耗量同比增长超 30 倍,剥离后 Aippy 将作为独立主体寻求更灵活的增长空间与 AI 赛道估值。
(@投资界)
3、Memories.ai 发布 LUCI Desktop 预览版:实现端侧视觉 AI 实现实时工作流自动化
Memories.ai 推出 LUCI Desktop 预览版,这是一款基于端侧视觉 AI 技术的个人智能体。该工具通过实时观察用户屏幕、会议和工作流,构建可检索的「视觉记忆」,并能基于上下文自动执行邮件起草、会议准备及任务管理等复杂工作流。
端侧视觉推理与隐私架构: 深度适配 Windows ML 和 Qualcomm X2 Elite 平台,支持本地实时索引。用户可选择全本地模式,所有视觉数据留存在磁盘而不上传云端,实现零延迟索引。
非结构化视频深度索引: 内置视觉场景检测(Visual Scene Detection)功能,可对长视频进行秒级摘要。支持视觉搜索(Visual Search),允许用户通过自然语言检索特定幻灯片出现或特定人物发言的精确时刻。
多模态上下文记忆中枢: 自动捕获屏幕活动并转化为可搜索的知识库。智能体能跨平台(如 Notion、Gmail、Zoom)关联历史决策,例如在准备会议前自动汇总 past interactions 的情感分析与项目里程碑。
可扩展技能库(Skills Library): 采用模块化架构,用户可针对创意设计、技术开发等特定行业开启/关闭专用「策划技能(Curators)」,如 Creative Asset Index 专门用于深度搜索设计文件和视觉情绪板。
多平台集成与执行:支持通过语音触发任务。除桌面端外,通过 API 接入 WhatsApp、Slack、Discord 等 8 个以上主流通讯平台,实现指令的跨设备联动执行。
试用链接:
https://luci.memories.ai/
( @shawnshenjx@X)
4、Suno 官宣获得超 4 亿美元 D 轮融资
AI 音乐生成平台 Suno 通过官方博客宣布,已完成超过 4 亿美元 的 D 轮 融资,投后估值达到 54 亿美元。
本轮融资由 Bond Capital 领投,多家新投资方、现有投资方以及部分音乐行业从业者参与跟投。
官方表示,新资金将用于帮助更多用户进行音乐表达,并计划在未来几个月内开始推出其与音乐产业合作开发的首个 音乐模型,以为粉丝创造新体验并帮助艺术家解锁商业可能。
(@橘鸦 Juya)
03 有态度的观点
1、「AI 谄媚」让 CEO「容易患上 AI 精神病」
据《卫报》报道,AI 谄媚(AI sycophancy)正从产品体验问题演变为社会风险。专栏作者 Arwa Mahdawi 昨日发文指出,AI 行业的集体亢奋正在扭曲部分企业高管的现实判断。
网络上流传着一句话:「你认识的最蠢的人,此刻正在被 AI 告知『你绝对正确』(You’re absolutely right)。」
这句调侃精准点出了 AI 谄媚的本质——聊天机器人被刻意设计为持续附和用户、给予正向反馈,以此提升用户黏性。但这种设计也让人更难发现自身判断的漏洞。Box 联合创始人 Aaron Levie 此前在 X 上写道:
CEO 天然容易患上「AI 精神病」。他们处于决策层顶端,离具体执行太远,接触 AI 时往往只看到演示中的顺利路径,根本没有考虑后续还需要十几、二十个步骤才能真正落地。
这种认知偏差的代价已在实际事故中显现。今年 4 月,由 Anthropic Claude 驱动的一个 AI 编程智能体出错,删除了初创公司 PocketOS 的全部生产数据库及备份。创始人 Jeremy Crane 事后表示:
行业把 AI 智能体接入生产基础设施的速度,已经明显快于安全架构的建设速度。
Mahdawi 认为,问题根源在于 AI 被刻意设计为「顺从」,持续附和用户观点以提升黏性,但这也让人更难发现自身判断的漏洞。
( @APPSO)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
作者提示: 个人观点,仅供参考