Gradium 内测端侧 TTS:支持手机 CPU 本地运行;Fish Audio 推出 STT,支持副言语与情感标记丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@koki、@鲍勃
01 有话题的技术
1、智谱发布 GLM-5V-Turbo 多模态模型,原生多模态架构实现「图像即代码」
智谱 AI(ZAI)发布多模态 Coding 基座模型 GLM-5V-Turbo。该模型通过原生多模态预训练深度融合视觉与文本能力,支持 200k 上下文窗口,旨在将智能体的感知-行动链路从纯文本延伸至 GUI 视觉交互,直接实现从设计稿、截图或录屏到可运行代码的转化。
核心要点
原生多模态 Coding 基座:原生理解图片、视频、设计稿、文档版面等多模态输入,并支持画框、截图、读网页等多模态工具调用,上下文窗口扩展至 200k,将 Agent 的感知-行动链路从纯文本延伸到视觉交互。
兼顾视觉与编程能力:在多模态 Coding、Tool Use、GUI Agent 等核心基准上取得领先表现。通过多任务协同 RL 等技术手段,确保纯文本场景下的编程、推理、工具调用等能力不退化。
深度适配 Claude Code 与龙虾场景:与 Claude Code、OpenClaw/AutoClaw 等 Agent 深度协同,支持「看懂环境→规划动作→执行任务」的完整闭环,并提供全套官方 Skills,开箱即用。
ClawHub 链接:
https://clawhub.ai/zai-org/glm-master-skill
GitHub 链接:
https://github.com/zai-org/GLM-skills
(@智谱)
2、Fish Audio 推出支持百种语言及情感标注的 STT 工具
Fish Audio 正式上线播客转录工具(Fish Audio STT),针对对话式音频优化,可自动识别多发言人并生成带有情感及副言语(Paralanguage)标记的文本。该工具旨在通过结构化元数据简化播客 SEO、字幕制作及语音再生产工作流。
内联副言语与情感自动化标记:模型可自动识别并嵌入 [pause]、[sigh]、[emphasis]、[breath]、[laugh] 等非言语事件标签。此类标签与 Fish Audio 自研 S2 TTS(语音合成)模型格式协议兼容,支持转录文本直接进入语音制作流水线。
智能发言人识别(Diarization)与语音分离:支持自动检测或手动指定发言人数量。转录界面提供精确至秒的时间戳,并按 SPK_0、SPK_1 等标识符对不同声源进行逻辑隔离,支持点击片段即时回放对应音频。
高度可定制的导出参数:支持导出 SRT、VTT 及 JSON 格式。SRT/VTT 导出支持自定义分割模式(Segment 或限制每条字数的 Max words 模式),并可选择是否在字幕中包含发言人标识及情感标签。
多格式兼容与计费逻辑:支持包括 MP3、MP4、WAV、FLAC、M4A、OGG、MOV 等 24 种音视频封装格式,覆盖 100 多种语言。计费标准为 300 积分/分钟,新用户每月提供 8000 免费积分(约 26 分钟额度)。
( @FishAudio@X)
3、Gradium 发布端侧 TTS Phonon 内测链接:支持智能手机 CPU 本地运行
来自 Gradium X 账号:
「基于 API 的语音交互效果很好,但要扩展到数百万免费用户又是另一回事。」
Gradium Phonon:自然语音、多语言、语音克隆,可在智能手机 CPU 上本地运行。无需服务器,无延迟,无每次通话成本。
内测版现已开放,游戏开发者、应用构建者可点击下方链接申请:
https://gradium.ai/on-device-tts
( @Gradium AI)
4、无界方舟发布端到端硬件 AIOS 「EVA」:支持自然语言驱动开发,语音交互延迟低于 250ms
近日,无界方舟宣布连续完成两轮 Pre-A 轮融资,由穿戴式设备品牌韶音以及国瑞源基金、恒松资本、上海天使会投资。过去一年内,无界方舟完成四轮融资,累计融资金额达数亿元。
在无界方舟看来,「新一代硬件必须搭载新一代 AI 操作系统」。
区别于传统 OS,EVA OS 具备两方面创新:
其一,EVA OS 提出「Vibe Hardware」范式,可基于自然语言理解用户意图,自主完成代码生成、UI 构建、打包部署与上线,让用户实现「说一句话,即刻就能实现硬件的应用开发」。
其二,EVA OS 构建「端侧主导感知交互、云端负责复杂推理」的协同架构,将环境感知、实时反馈和连续多模态交互等高频任务放在端侧闭环,已将语音交互延迟压缩至 250ms 以内、多模态反馈延迟控制在 350ms 以内,并将推理成本降低 70%-92%。在此基础上,系统进一步形成多模态记忆、动作执行、数字形象等核心模块,推动云端能力真正转化为端侧可运行、可调用、可进化的智能终端框架。
自 EVA OS 1.0 发布三个月以来,据了解,已有超 2500 家企业与研发单位将其应用于硬件产品研发。
据介绍,无界方舟即将发布新一代 EVA OS,并同步推出原生 AIOS 智能硬件 EVA Pi。EVA Pi 深度集成 EVA OS,可在端侧原生完成 AI 应用开发、部署与持续迭代。
(@多知)
02 有亮点的产品
1、XREAL 冲刺港交所:或成「智能眼镜第一股」,销售收入连续四年位居全球之首
于 2026 年 4 月 1 日正式向港交所递交招股说明书,拟主板挂牌上市,这意味着,XREAL 或将成为「智能眼镜第一股」。
成立于 2017 年的 XREAL 旗下产品线可归纳为三大主要系列:Air 系列、One 系列,以及 Light-Ultra-Aura 产品线:
Air 系列是 XREAL 入门级且用户基础最广泛的产品线,聚焦沉浸式观影、主机游戏及移动办公等高频场景,同时保持接近普通眼镜的佩戴体验并支持即插即用,连接手机、PC 和游戏主机。
One 系列在此基础上进一步强化显示性能及交互能力。其通过先进的 Micro-OLED 显示技术、XREAL 的定制化 X1 端侧协处理器以及可根据不同光线条件自动调节亮度的电致变色镜片,为用户带来更先进的空间显示体验。
Light-Ultra-Aura 产品线则代表了 XREAL 产品向下一代空间计算的演进——XREAL 早期的 Light 系列帮助确立了其在市场上的早期地位;Ultra 则为开发者和高阶用户引入了先进的空间感知和完整的 6DoF 交互能力;而 XREAL 的下一代旗舰产品 Project Aura,将实现 FoV 提升至约 70 度,并将集成增强的空间计算和多模态 AI 能力,且预计将在 Google Android XR 平台上运行。
值得一提的是,XREAL 是一家「生而全球化」的中国科技企业——截至 2025 年 12 月 31 日,XREAL 的销售网络已覆盖 40 个国家和地区,且在北美、日本及韩国均设有本地销售与运营团队。2025 年,XREAL 超 70%的收入来自海外市场。
在 XREAL 看来,AR 眼镜的竞争优势在于产品技术栈关键层级的系统级整合,包括光学引擎、端侧协处理器架构、算法和操作系统。因此,XREAL 已构建了「自研光机+自研芯片」的核心护城河,并将 IPO 募集所得资金净额将主要用于持续的研发投资,包括技术开发与产品升级。
(@IPO 早知道)
2、Vibe Island 发布:Mac 灵动岛实现 AI 智能体实时状态监控与跨终端任务审批
开发者 Edward.Luo 发布 Mac 端工具 Vibe Island,利用灵动岛为 AI 智能体提供原生交互接口。该应用解决了 Vibe Coding 场景下多并发任务导致的状态跟踪难问题,允许用户在不离开当前工作流的前提下,实时监控并审批多个终端智能体的运行状态。
多 Agent 状态实时聚合:支持 Claude Code、Codex、OpenClaw 等主流 AI 编程工具,在 Mac 刘海区同步显示各并发任务的运行进度、运行状态及待处理请求。
非侵入式异步权限审批:当智能体触发文件读写权限申请或任务完成提醒时,灵动岛组件自动展开并提供直接交互接口,用户无需切换至终端窗口即可完成指令审批。
跨终端会话路由跳转:内置任务索引面板,点击灵动岛内的特定智能体卡片,可精确跳转并聚焦至对应的终端 Tab 或会话所在的应用程序界面。
基于状态触发的音效反馈:针对智能体任务的不同阶段配置 8-bit 像素风音效,提升了 Vibe Coding 的氛围感。
官网链接:vibeisland.app
(@Edward.Luo@即刻)
3、Rokid 展示 AIUI 交互模式,以自然语言驱动 AI 眼镜全新体验
Rokid 的创始人兼 CEO 祝铭明在网上发布了一条视频,这一功能演示视频迅速窜热,Demo 视频中,佩戴乐奇 Rokid 眼镜的他,基于纯自然语言与 AI 交互,AI 直接实现复杂任务处理和多模态信息呈现,从查股价到查天气,AI 都给出了定制的、可视化图像结果。这一 Demo 视频,向我们展示了 AI 人机交互未来的一个重要趋势——
AIUI(以 AI 为核心的交互)的到来。
传统 GUI(图形用户界面)之下,用户直接充当了「路由器」的角色,在不同的信息孤岛(App)之间手动寻找、组合信息。
而在 AIUI 中,交互路径大幅缩短,几乎完全省去手的操作,只需要语言交互;AI 多模态内容生成输出可以实现从理解文本到呈现可视化图文信息的完整链路,AI 可以精准识别意图、提供多模态信息的按需呈现。
从信息获取模式上来看,从传统交互到 AIUI,就是从「人找 App」变为「AI 找人」——AI 精准识别意图、呈现定制化内容。
对于用户来说,体验升级十分明显——可视化呈现、更自然的交互、AI 更易用、好用,信息、服务获取更高效、操作更便捷;对开发者来说,AIUI 生态更加开放,前端/JS 开发者都可以快速加入 AI Agent 生态,快速让这套交互模式应用在自己的产品上,大幅降低门槛。
从行业层面来看,从「文字对话 AI」升级为「原生融合 AI」,这种 AI 交互范式的革新,为 AR 眼镜、空间计算、智能助手等场景奠定了下一代交互基础。
(@智东西)
03 有态度的观点
1、招聘顾问:AI 时代,求职者也要反向考察公司的 AI 成熟度
随着 AI 技术加速渗透职场,求职者在面试中主动询问雇主的 AI 战略,已成为一项越来越重要的技能。
拥有约 30 年经验的招聘顾问 Jeff Hyman 表示,判断一家公司究竟是在真正落地 AI,还是仅仅在「讲故事」,是候选人在面试中需要完成的核心功课。
他建议直接询问公司今年的 AI 战略规划,以帮助候选人判断企业是将 AI 视为增长引擎,还是单纯的降本工具。
在工具层面,Hyman 认为,AI 访问权限的配置方式,是衡量一家公司对该技术重视程度最直接的信号。他认为,候选人完全有理由追问公司是否为员工提供付费 AI 工具,抑或只能依赖免费版本自行摸索。
那些在 AI 上抠门的公司,传递出的信号很明确——他们想要 AI 带来的红利,却不愿意为此投入。
职业教育平台 AdviceWithErin 创始人 Erin McGoff 提醒,要警惕那些「AI 醉驾」式的公司——即过度笃信 AI 将颠覆一切的企业,与之相对的,则是那些 AI 对业务几乎没有实质影响的公司,两种极端都值得留意。
最后,McGoff 建议候选人直接询问公司是否会提供系统性的 AI 培训与支持,还是将一切留给员工自行摸索。Mooney 也推荐以开放式问题收尾,例如「AI 如何影响你们的日常工作和业务?」以及「它如何改变了你管理团队的方式?」
(@APPSO)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
作者提示: 个人观点,仅供参考