虚拟办公室Gather重组:AI团队并入Figma;蚂蚁开源Ming-Flash-Omni 2.0:全场景音频统一生成模型丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@瓒an、@鲍勃
01 有话题的技术
1、MOSS-TTS 亮相,支持精细发音控制与长音频生成,打造生产级语音基础模型
模思智能及 OpenMOSS 团队近日正式发布并开源了 MOSS-TTS Family 语音生成模型家族。这套工具链并未追求单一模型能力的堆叠,而是针对真实创作与交互需求,将语音生成拆解为五个核心模块:
MOSS-TTS:作为高保真语音生成基座,支持多语言、长音频及精确时长控制,在 Seed-TTS-eval 测试集上的音色相似度表现优异,可用于纪录片配音等场景。
MOSS-TTSD:升级至 1.0 版本,专注于多说话人对话生成,支持 1-5 人自然对话节奏及最长 60 分钟的长对话,适用于播客、解说等复杂场景。
MOSS-VoiceGenerator:通过指令设计音色与角色,实现情绪表达与表演状态的模拟。
MOSS-SoundEffect:根据文本描述生成环境音与音效,补全声音场景。
MOSS-TTS-Realtime:面向实时交互系统的流式 TTS 模型,低延迟特性适配语音助手等应用。
技术层面,MOSS-TTS Family 基于高质量 Audio Tokenizer、大规模多样化数据及高效离散 Token 建模方法。其中,MOSS Audio Tokenizer 采用 1.6B 参数的纯 Transformer 架构,实现了高压缩比与语义-声学统一表征。为兼顾生产落地与学术研究,团队同时开源了两套互补架构:适合长文本生成与规模化部署的 Delay-Pattern (MossTTSDelay),以及适配流式交互的 Global Latent + Local Transformer (MossTTSLocal)。
此外,MOSS-TTS 系列已实现对壁仞科技壁砺
166M 的 Day-0 高性能推理支持,展现了对国产算力生态的兼容性。该模型家族的发布,试图通过覆盖「稳定生成、灵活设计、复杂对话、情境补全、实时交互」的全维度能力,为行业提供一套可直接接入工作流的声音创作生态闭环。
相关链接:
https://mosi.cn/models/moss-tts
GitHub:
https://github.com/OpenMOSS/MOSS-TTS
( @机器之心 )
2、智谱上线全新模型 GLM-5
刚刚,智谱正式上线并开源最新模型 GLM-5。
据介绍,GLM-5 是迈向 Agentic Engineering 的产物:在 Coding 与 Agent 能力上,其取得开源 SOTA 表现,在真实编程场景的使用体感逼近 Claude Opus 4.5,擅长复杂系统工程与长程 Agent 任务。
GLM-5 采用全新基座:参数规模从 355B(激活 32B)扩展至 744B(激活 40B),预训练数据从 23T 提升至 28.5T;构建全新的「Slime」框架,支持更大模型规模及更复杂的强化学习任务。
同时,GLM-5 还首次集成 DeepSeek Sparse Attention(稀疏注意力),在维持长文本效果无损的同时,大幅降低模型部署成本。
具体表现上:
在全球权威的 Artificial Analysis 榜单中,GLM-5 位居全球第四、开源第一。
GLM-5 在编程能力上实现了对齐 Claude Opus 4.5,在业内公认的主流基准测试中取得开源模型 SOTA。
GLM-5 在 SWE-bench-Verified 和 Terminal Bench 2.0 中分别获得 77.8 和 56.2 的开源模型最高分数,性能超过 Gemini 3 Pro。
GLM-5 在 BrowseComp(联网检索与信息理解)、MCP-Atlas(大规模端到端工具调用)和 τ²-Bench(复杂场景下自动代理的工具规划和执行)均取得最高表现。
值得一提的是,目前 GLM-5 已完成与华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原、海光等国产算力平台的深度推理适配。通过底层算子优化与硬件加速,GLM-5 在国产芯片集群上已经实现高吞吐、低延迟的稳定运行。
即日起,GLM-5 在 Hugging Face 与 ModelScope 平台同步开源,模型权重遵循 MIT License。同时 GLM-5 已纳入 GLM Coding Plan Max 套餐。
GitHub:
https://github.com/zai-org/GLM-5
Hugging Face:
https://huggingface.co/zai-org/GLM-5
( @APPSO)
3、蚂蚁开源全模态大模型 Ming-Flash-Omni 2.0
2 月 11 日,蚂蚁集团开源发布全模态大模型 Ming-Flash-Omni 2.0。
在多项公开基准测试中,Ming-Flash-Omni 2.0 在视觉语言理解、语音可控生成、图像生成与编辑等关键能力表现突出,部分指标超越 Gemini 2.5 Pro,成为开源全模态大模型性能新标杆。
据悉,Ming-Flash-Omni 2.0 也是业界首个全场景音频统一生成模型,可在同一条音轨中同时生成语音、环境音效与音乐。用户只需用自然语言下指令,即可对音色、语速、语调、音量、情绪与方言等进行精细控制。
模型在推理阶段实现了 3.1Hz 的极低推理帧率,实现了分钟级长音频的实时高保真生成,在推理效率与成本控制上保持业界领先。
值得一提的是,Ming-Flash-Omni 2.0 基于 Ling-2.0 架构(MoE,100B-A6B)训练,围绕「看得更准、听得更细、生成更稳」三大目标全面优化。
目前,Ming-Flash-Omni 2.0 的模型权重、推理代码已在 Hugging Face 等开源社区发布。用户也可通过蚂蚁百灵官方平台 Ling Studio 在线体验与调用。
Hugging Face:
https://huggingface.co/inclusionAI/Ming-flash-omni-2.0
GitHub:
https://github.com/inclusionAI/Ming
( @APPSO)
4、Rokid Glasses 上线「自定义智能体」:支持接入 OpenClaw 与 DeepSeek 等私有大模型
Rokid 宣布其灵珠平台正式上线「自定义智能体」功能,允许 Rokid Glasses 用户通过标准的 SSE 接口,接入自定义后端服务。这一更新回应了极客用户对于接入私有大模型、本地 NAS 运行 AI 以及调用自定义 Python 脚本的需求,标志着该产品开始将 AI 助手的定义权交还给用户。
此次更新打破了厂商定义能力的传统模式,支持接入包括开源社区热门的 OpenClaw 框架,以及 DeepSeek R1、Qwen3、Kimi K2.5 等私有部署模型。通过这种开放策略,Rokid Glasses 试图构建一种硬件负责感知(看与听)、后台负责思考与执行的 AR 形态。
接入自定义智能体(如 OpenClaw)为用户带来了三个维度的能力提升:
数据主权与隐私保护:通过接入运行在 Mac Mini 或家庭服务器上的本地 Agent,摄像头画面与私有知识库可实现本地闭环处理,无需数据上云。
执行能力的扩展:区别于仅能对话的传统模型,OpenClaw 结合 ClawHub 技能生态,具备调用文件系统、操作浏览器、发送消息甚至执行 Python 脚本的行动力。
模型基座的自由切换:用户可根据需求灵活切换后端模型,例如调用 Kimi K2.5 处理复杂推理,或使用本地量化版 Qwen 3 进行端侧交互。
在具体部署方面,开发者需在 Rokid 开放平台注册并完成实名认证,随后在灵珠平台创建智能体并配置 URL 与鉴权信息。针对仅限个人使用的智能体,官方提示无需提交审核,直接通过个人账号调用即可,以避免误触提审流程。
鉴于接入门槛较高且涉及网络安全,Rokid 建议开发者使用阿里云或腾讯云等云服务器部署 OpenClaw,而不推荐在本地私人电脑使用内网穿透工具。配置完成后,用户可在 Rokid AI App 中调试,并通过眼镜端的语音指令或快捷指令唤起私有智能体。
灵珠平台:
https://ar.rokid.com/
GitHub:
https://github.com/openclaw/openclaw
(@Rikid 乐奇、@IT 之家)
02 有亮点的产品
1、Gather 宣布重组:AI 团队并入 Figma,核心业务转型独立盈利模式
2026 年 2 月 9 日,Gather 发布了关于公司未来的战略更新。自成立以来,Gather 一直致力于通过「虚拟办公室」消除机会与连接的物理障碍,目前该产品已实现盈利并持续增长,服务于全球数千家企业。然而,公司管理层经过评估后认为,尽管现有产品具有长期价值和可持续性,但已不再符合最初设想的风投级增长模式。
为了确保核心使命的延续,Gather 宣布将采取两项关键举措来进行重组:
转型为独立企业:Gather 将剥离为一家独立的、非风投支持的实体,作为一家专注且盈利的中小企业运营。这一转变使公司能够摆脱对十亿美元级估值的追逐压力,转而全心全意服务核心客户,并开发用户真正期待的功能(例如「办公室宠物」功能的回归)。许多资深团队成员将留任,继续推动产品的开发与创新。
AI 团队加入 Figma:Gather 的 AI 团队已达成协议加入 Figma。过去一年中,该团队一直在探索如何提升软件设计与构建工作的愉悦感和效率。在此过程中,他们发现与 Figma 团队在愿景和价值观上高度契合,因此决定加入 Figma 以继续推进这一领域的工作。
对于现有客户,Gather 承诺服务将不会发生任何变化。转型为独立业务后,团队将拥有更大的自由度来响应那些长期存在的用户需求,并继续保持其一贯的创新精神。此次调整被视为 Gather 回归初心的举措,使其能以更专注的方式在远程协作领域发挥所长。
( @Gather Blog)
2、Willow 发布开发者语音工具,支持 Cursor、Antigravity 等主流 AI IDE
2026 年 2 月 12 日,Willow 正式推出了面向开发者的语音听写工具「Willow for Developers」,该工具专为 Vibe Coding 工作流打造。针对 Andrej Karpathy 曾提出的「英语是目前最热门的新编程语言」这一观点,Willow 将传统的键盘输入视为开发过程中的瓶颈,并试图通过语音交互来消除这一障碍。
该工具的核心逻辑建立在说话与打字的速度差异之上。Willow 指出,人类的平均语速约为每分钟 200 个单词,而打字速度仅为每分钟 60 个单词。通过口述提示词,开发者能够比打字时更自然地提供丰富的细节和上下文信息。在 AI 辅助开发的语境下,这种高密度的上下文输入有助于 AI IDE 生成质量更高的代码。
在具体功能层面,Willow 针对编程场景进行了多项优化:
智能文件识别与标签化:工具支持 Cursor、Antigravity 等主流 AI IDE。当用户口述如「更新 navbar.tsx 中的标题栏」等指令时,Willow 能自动识别项目中的特定文件,并自动添加相应的引用标签(如 @ 标签),无需开发者手动标记。
技术术语精准听写:区别于普通语音输入,Willow 具备代码上下文感知能力。它能够准确拼写特定的变量名称(例如「userAuthToken」),并开箱即用地识别 SQL、GraphQL、OAuth 等技术术语,确保拼写无误。
相关链接:
https://willowvoice.com/
( @WillowVoiceAI@X)
3、Simple AI 完成 1400 万美元种子轮融资:First Harmonic 领投,打造转化率超人工 30% 的语音智能体
语音 AI 智能体平台 Simple AI 于 2026 年 2 月 10 日宣布完成 1400 万美元种子轮融资,由 First Harmonic 领投,Y Combinator 等机构跟投。资金将用于开发语音智能体平台、构建定制生成式 AI 模型及商业分析工具。
Simple AI 的核心业务是利用语音 AI 自动化处理销售与支持来电。平台可导入企业完整产品目录(含 SKU 及定价),在通话中调用实时客户数据进行个性化互动,并执行下单等操作,同时生成通话记录与分析报告。技术上,该平台宣称将全链路延迟控制在 850 毫秒以内,涵盖语音检测到文本转语音的全流程,以确保对话自然流畅。
该技术试图解决呼叫中心的三大挑战:
应对波动:在业务高峰期自动扩展接待能力。
提升效率:学习顶尖销售代表经验,避免人工效率起伏。
保持一致性:维持人类难以企及的服务稳定性。
平台还提供实验工具,支持调整 AI 智能体的语速、性别和口音。联合创始人 Catheryn Li 表示,优质的语音智能体能改善通话体验;CTO Zach Kamran 则指出,智能体能瞬间掌握所有产品细节。数据显示,其 AI 智能体在牛排销售、保险等领域的转化率比人工客服高出 30%。
投资方 First Harmonic 评价称,团队并未依赖现有方案,而是从零构建了完整的语音 AI 技术栈。两位创始人相识于 Y Combinator,在接触大语言模型早期研究后,决定将其应用于语音领域。
( @BusinessWire)
03 有态度的观点
1、AI 非但未减负,反而加剧职场倦怠
据 Techcrunch 报道,如今美国职场文化中最具诱惑力的说法,并非人工智能会抢走你的工作,而是它能把你从繁重的工作中解脱出来。
过去三年里,科技行业一直在向数百万焦虑不安的人兜售这一理念,而人们也迫切愿意相信。诚然,部分白领岗位将会消失。但该观点声称,对大多数其他职位而言,人工智能是能力放大器。工具为你所用,你不用再拼命工作,人人都是赢家。
但《哈佛商业评论》(Harvard Business Review)新近发表的一项研究,顺着这一前提推导得出了真实结论:研究发现的并非一场生产力革命,而是企业有可能变成让人精疲力竭的机器。
加州大学伯克利分校的研究团队在一家 200 人规模的科技公司进行了为期八个月的实地观察。研究发现,尽管公司管理层并未施加额外压力或设定新业绩目标,员工在深度接纳 AI 后,工作状态却发生了微妙变化。仅仅因为工具提升了可行性,员工便主动承担更多任务,导致工作逐渐侵占午休时间甚至蔓延至深夜。AI 节省出的每一小时,迅速被不断膨胀的待办事项填满。一位工程师在访谈中坦言,原本期望的高效率能带来闲暇,现实却是工作量不降反增。
此前已有数据佐证了类似迹象:去年夏天的实验显示,资深开发者使用 AI 后实际耗时增加 19%,尽管其自我感觉效率提升了 20%;美国国家经济研究局的数据也表明,AI 带来的生产力提升仅相当于节省 3% 的时间。
与上述研究不同,这项新研究并未质疑 AI 对个人能力的提升作用,而是揭示了这种提升的副作用。研究指出,随着组织对响应速度和工作效率的要求水涨船高,技术赋能最终导向了疲劳、职业倦怠以及强烈的「无法抽身感」。科技行业寄希望于通过「做更多事」来解决问题,但这或许正是新问题的开端。
(@IT 之家)
04 社区黑板报
招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)
1、招聘工程研发、算法、产运等岗位
来自社区开发者 Polande:
招聘岗位(北京)
1.工程研发/Agent 研发
2.语音算法
3.产品运营、用户增长
4.AI 创新独立小团队(3 人)
期望:热爱 AI、了解 AI、了解 SaaS、能够用 AI 在工作中实质的提效落地。
关于公司
1.方向是做语音对话的 SaaS -> Agent 平台产品
2.上市公司内的创业团队,当前 30 人,26 年控制在 50 人左右(创业氛围,暂时不需要融资
3.产品:0.7 阶段
关于我
原先在百度和现在团队一直是做 AI 商业化方向,接近小十年的智能语音交互,但是现在还是有很多事情会感觉到兴奋。
有意向可以联系 polandeme@gmail.com

写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

作者提示: 个人观点,仅供参考