虚拟办公室Gather重组:AI团队并入Figma;蚂蚁开源Ming-Flash-Omni 2.0:全场景音频统一生成模型丨日报

图片


开发者朋友们大家好:


这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@瓒an、@鲍勃


01 有话题的技术

1、MOSS-TTS 亮相,支持精细发音控制与长音频生成,打造生产级语音基础模型


模思智能及 OpenMOSS 团队近日正式发布并开源了 MOSS-TTS Family 语音生成模型家族。这套工具链并未追求单一模型能力的堆叠,而是针对真实创作与交互需求,将语音生成拆解为五个核心模块:

  • MOSS-TTS:作为高保真语音生成基座,支持多语言、长音频及精确时长控制,在 Seed-TTS-eval 测试集上的音色相似度表现优异,可用于纪录片配音等场景。

  • MOSS-TTSD:升级至 1.0 版本,专注于多说话人对话生成,支持 1-5 人自然对话节奏及最长 60 分钟的长对话,适用于播客、解说等复杂场景。

  • MOSS-VoiceGenerator:通过指令设计音色与角色,实现情绪表达与表演状态的模拟。

  • MOSS-SoundEffect:根据文本描述生成环境音与音效,补全声音场景。

  • MOSS-TTS-Realtime:面向实时交互系统的流式 TTS 模型,低延迟特性适配语音助手等应用。


技术层面,MOSS-TTS Family 基于高质量 Audio Tokenizer、大规模多样化数据及高效离散 Token 建模方法。其中,MOSS Audio Tokenizer 采用 1.6B 参数的纯 Transformer 架构,实现了高压缩比与语义-声学统一表征。为兼顾生产落地与学术研究,团队同时开源了两套互补架构:适合长文本生成与规模化部署的 Delay-Pattern (MossTTSDelay),以及适配流式交互的 Global Latent + Local Transformer (MossTTSLocal)。


此外,MOSS-TTS 系列已实现对壁仞科技壁砺 166M 的 Day-0 高性能推理支持,展现了对国产算力生态的兼容性。该模型家族的发布,试图通过覆盖「稳定生成、灵活设计、复杂对话、情境补全、实时交互」的全维度能力,为行业提供一套可直接接入工作流的声音创作生态闭环。


相关链接:

https://mosi.cn/models/moss-tts


GitHub: 

https://github.com/OpenMOSS/MOSS-TTS


( @机器之心 )



2、智谱上线全新模型 GLM-5

图片


刚刚,智谱正式上线并开源最新模型 GLM-5。


据介绍,GLM-5 是迈向 Agentic Engineering 的产物:在 Coding 与 Agent 能力上,其取得开源 SOTA 表现,在真实编程场景的使用体感逼近 Claude Opus 4.5,擅长复杂系统工程与长程 Agent 任务。


GLM-5 采用全新基座:参数规模从 355B(激活 32B)扩展至 744B(激活 40B),预训练数据从 23T 提升至 28.5T;构建全新的「Slime」框架,支持更大模型规模及更复杂的强化学习任务。


同时,GLM-5 还首次集成 DeepSeek Sparse Attention(稀疏注意力),在维持长文本效果无损的同时,大幅降低模型部署成本。


具体表现上:


  • 在全球权威的 Artificial Analysis 榜单中,GLM-5 位居全球第四、开源第一。

  • GLM-5 在编程能力上实现了对齐 Claude Opus 4.5,在业内公认的主流基准测试中取得开源模型 SOTA。

  • GLM-5 在 SWE-bench-Verified 和 Terminal Bench 2.0 中分别获得 77.8 和 56.2 的开源模型最高分数,性能超过 Gemini 3 Pro。

  • GLM-5 在 BrowseComp(联网检索与信息理解)、MCP-Atlas(大规模端到端工具调用)和 τ²-Bench(复杂场景下自动代理的工具规划和执行)均取得最高表现。


值得一提的是,目前 GLM-5 已完成与华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原、海光等国产算力平台的深度推理适配。通过底层算子优化与硬件加速,GLM-5 在国产芯片集群上已经实现高吞吐、低延迟的稳定运行。


即日起,GLM-5 在 Hugging Face 与 ModelScope 平台同步开源,模型权重遵循 MIT License。同时 GLM-5 已纳入 GLM Coding Plan Max 套餐。


GitHub: 

https://github.com/zai-org/GLM-5


Hugging Face: 

https://huggingface.co/zai-org/GLM-5


( @APPSO)



3、蚂蚁开源全模态大模型 Ming-Flash-Omni 2.0

图片


2 月 11 日,蚂蚁集团开源发布全模态大模型 Ming-Flash-Omni 2.0。


在多项公开基准测试中,Ming-Flash-Omni 2.0 在视觉语言理解、语音可控生成、图像生成与编辑等关键能力表现突出,部分指标超越 Gemini 2.5 Pro,成为开源全模态大模型性能新标杆。


据悉,Ming-Flash-Omni 2.0 也是业界首个全场景音频统一生成模型,可在同一条音轨中同时生成语音、环境音效与音乐。用户只需用自然语言下指令,即可对音色、语速、语调、音量、情绪与方言等进行精细控制。



模型在推理阶段实现了 3.1Hz 的极低推理帧率,实现了分钟级长音频的实时高保真生成,在推理效率与成本控制上保持业界领先。


值得一提的是,Ming-Flash-Omni 2.0 基于 Ling-2.0 架构(MoE,100B-A6B)训练,围绕「看得更准、听得更细、生成更稳」三大目标全面优化


目前,Ming-Flash-Omni 2.0 的模型权重、推理代码已在 Hugging Face 等开源社区发布。用户也可通过蚂蚁百灵官方平台 Ling Studio 在线体验与调用。


Hugging Face:

https://huggingface.co/inclusionAI/Ming-flash-omni-2.0


GitHub:

https://github.com/inclusionAI/Ming


( @APPSO)



4、Rokid Glasses 上线「自定义智能体」:支持接入 OpenClaw 与 DeepSeek 等私有大模型

图片


Rokid 宣布其灵珠平台正式上线「自定义智能体」功能,允许 Rokid Glasses 用户通过标准的 SSE 接口,接入自定义后端服务。这一更新回应了极客用户对于接入私有大模型、本地 NAS 运行 AI 以及调用自定义 Python 脚本的需求,标志着该产品开始将 AI 助手的定义权交还给用户。


此次更新打破了厂商定义能力的传统模式,支持接入包括开源社区热门的 OpenClaw 框架,以及 DeepSeek R1、Qwen3、Kimi K2.5 等私有部署模型。通过这种开放策略,Rokid Glasses 试图构建一种硬件负责感知(看与听)、后台负责思考与执行的 AR 形态。


接入自定义智能体(如 OpenClaw)为用户带来了三个维度的能力提升:


  • 数据主权与隐私保护:通过接入运行在 Mac Mini 或家庭服务器上的本地 Agent,摄像头画面与私有知识库可实现本地闭环处理,无需数据上云。

  • 执行能力的扩展:区别于仅能对话的传统模型,OpenClaw 结合 ClawHub 技能生态,具备调用文件系统、操作浏览器、发送消息甚至执行 Python 脚本的行动力。

  • 模型基座的自由切换:用户可根据需求灵活切换后端模型,例如调用 Kimi K2.5 处理复杂推理,或使用本地量化版 Qwen 3 进行端侧交互。


在具体部署方面,开发者需在 Rokid 开放平台注册并完成实名认证,随后在灵珠平台创建智能体并配置 URL 与鉴权信息。针对仅限个人使用的智能体,官方提示无需提交审核,直接通过个人账号调用即可,以避免误触提审流程。


鉴于接入门槛较高且涉及网络安全,Rokid 建议开发者使用阿里云或腾讯云等云服务器部署 OpenClaw,而不推荐在本地私人电脑使用内网穿透工具。配置完成后,用户可在 Rokid AI App 中调试,并通过眼镜端的语音指令或快捷指令唤起私有智能体。


灵珠平台:

https://ar.rokid.com/


GitHub: 

https://github.com/openclaw/openclaw


(@Rikid 乐奇、@IT 之家)



02 有亮点的产品


1、Gather 宣布重组:AI 团队并入 Figma,核心业务转型独立盈利模式

2026 年 2 月 9 日,Gather 发布了关于公司未来的战略更新。自成立以来,Gather 一直致力于通过「虚拟办公室」消除机会与连接的物理障碍,目前该产品已实现盈利并持续增长,服务于全球数千家企业。然而,公司管理层经过评估后认为,尽管现有产品具有长期价值和可持续性,但已不再符合最初设想的风投级增长模式。


为了确保核心使命的延续,Gather 宣布将采取两项关键举措来进行重组:


  • 转型为独立企业:Gather 将剥离为一家独立的、非风投支持的实体,作为一家专注且盈利的中小企业运营。这一转变使公司能够摆脱对十亿美元级估值的追逐压力,转而全心全意服务核心客户,并开发用户真正期待的功能(例如「办公室宠物」功能的回归)。许多资深团队成员将留任,继续推动产品的开发与创新。

  • AI 团队加入 Figma:Gather 的 AI 团队已达成协议加入 Figma。过去一年中,该团队一直在探索如何提升软件设计与构建工作的愉悦感和效率。在此过程中,他们发现与 Figma 团队在愿景和价值观上高度契合,因此决定加入 Figma 以继续推进这一领域的工作。


对于现有客户,Gather 承诺服务将不会发生任何变化。转型为独立业务后,团队将拥有更大的自由度来响应那些长期存在的用户需求,并继续保持其一贯的创新精神。此次调整被视为 Gather 回归初心的举措,使其能以更专注的方式在远程协作领域发挥所长。


( @Gather Blog)



2、Willow 发布开发者语音工具,支持 Cursor、Antigravity 等主流 AI IDE


2026 年 2 月 12 日,Willow 正式推出了面向开发者的语音听写工具「Willow for Developers」,该工具专为 Vibe Coding 工作流打造。针对 Andrej Karpathy 曾提出的「英语是目前最热门的新编程语言」这一观点,Willow 将传统的键盘输入视为开发过程中的瓶颈,并试图通过语音交互来消除这一障碍。

该工具的核心逻辑建立在说话与打字的速度差异之上。Willow 指出,人类的平均语速约为每分钟 200 个单词,而打字速度仅为每分钟 60 个单词。通过口述提示词,开发者能够比打字时更自然地提供丰富的细节和上下文信息。在 AI 辅助开发的语境下,这种高密度的上下文输入有助于 AI IDE 生成质量更高的代码。


在具体功能层面,Willow 针对编程场景进行了多项优化:


  • 智能文件识别与标签化:工具支持 Cursor、Antigravity 等主流 AI IDE。当用户口述如「更新 navbar.tsx 中的标题栏」等指令时,Willow 能自动识别项目中的特定文件,并自动添加相应的引用标签(如 @ 标签),无需开发者手动标记。

  • 技术术语精准听写:区别于普通语音输入,Willow 具备代码上下文感知能力。它能够准确拼写特定的变量名称(例如「userAuthToken」),并开箱即用地识别 SQL、GraphQL、OAuth 等技术术语,确保拼写无误。


相关链接:

https://willowvoice.com/


( @WillowVoiceAI@X)



3、Simple AI 完成 1400 万美元种子轮融资:First Harmonic 领投,打造转化率超人工 30% 的语音智能体


语音 AI 智能体平台 Simple AI 于 2026 年 2 月 10 日宣布完成 1400 万美元种子轮融资,由 First Harmonic 领投,Y Combinator 等机构跟投。资金将用于开发语音智能体平台、构建定制生成式 AI 模型及商业分析工具。


Simple AI 的核心业务是利用语音 AI 自动化处理销售与支持来电。平台可导入企业完整产品目录(含 SKU 及定价),在通话中调用实时客户数据进行个性化互动,并执行下单等操作,同时生成通话记录与分析报告。技术上,该平台宣称将全链路延迟控制在 850 毫秒以内,涵盖语音检测到文本转语音的全流程,以确保对话自然流畅。


该技术试图解决呼叫中心的三大挑战:


  • 应对波动:在业务高峰期自动扩展接待能力。

  • 提升效率:学习顶尖销售代表经验,避免人工效率起伏。

  • 保持一致性:维持人类难以企及的服务稳定性。


平台还提供实验工具,支持调整 AI 智能体的语速、性别和口音。联合创始人 Catheryn Li 表示,优质的语音智能体能改善通话体验;CTO Zach Kamran 则指出,智能体能瞬间掌握所有产品细节。数据显示,其 AI 智能体在牛排销售、保险等领域的转化率比人工客服高出 30%。


投资方 First Harmonic 评价称,团队并未依赖现有方案,而是从零构建了完整的语音 AI 技术栈。两位创始人相识于 Y Combinator,在接触大语言模型早期研究后,决定将其应用于语音领域。


( @BusinessWire)


03 有态度的观点 


1、AI 非但未减负,反而加剧职场倦怠

据 Techcrunch 报道,如今美国职场文化中最具诱惑力的说法,并非人工智能会抢走你的工作,而是它能把你从繁重的工作中解脱出来。


过去三年里,科技行业一直在向数百万焦虑不安的人兜售这一理念,而人们也迫切愿意相信。诚然,部分白领岗位将会消失。但该观点声称,对大多数其他职位而言,人工智能是能力放大器。工具为你所用,你不用再拼命工作,人人都是赢家。


但《哈佛商业评论》(Harvard Business Review)新近发表的一项研究,顺着这一前提推导得出了真实结论:研究发现的并非一场生产力革命,而是企业有可能变成让人精疲力竭的机器。


加州大学伯克利分校的研究团队在一家 200 人规模的科技公司进行了为期八个月的实地观察。研究发现,尽管公司管理层并未施加额外压力或设定新业绩目标,员工在深度接纳 AI 后,工作状态却发生了微妙变化。仅仅因为工具提升了可行性,员工便主动承担更多任务,导致工作逐渐侵占午休时间甚至蔓延至深夜。AI 节省出的每一小时,迅速被不断膨胀的待办事项填满。一位工程师在访谈中坦言,原本期望的高效率能带来闲暇,现实却是工作量不降反增。


此前已有数据佐证了类似迹象:去年夏天的实验显示,资深开发者使用 AI 后实际耗时增加 19%,尽管其自我感觉效率提升了 20%;美国国家经济研究局的数据也表明,AI 带来的生产力提升仅相当于节省 3% 的时间。


与上述研究不同,这项新研究并未质疑 AI 对个人能力的提升作用,而是揭示了这种提升的副作用。研究指出,随着组织对响应速度和工作效率的要求水涨船高,技术赋能最终导向了疲劳、职业倦怠以及强烈的「无法抽身感」。科技行业寄希望于通过「做更多事」来解决问题,但这或许正是新问题的开端。


(@IT 之家)



04 社区黑板报 

招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)


1、招聘工程研发、算法、产运等岗位

来自社区开发者 Polande:


招聘岗位(北京)

1.工程研发/Agent 研发

2.语音算法

3.产品运营、用户增长

4.AI 创新独立小团队(3 人)

期望:热爱 AI、了解 AI、了解 SaaS、能够用 AI 在工作中实质的提效落地。

关于公司

1.方向是做语音对话的 SaaS -> Agent 平台产品

2.上市公司内的创业团队,当前 30 人,26 年控制在 50 人左右(创业氛围,暂时不需要融资

3.产品:0.7 阶段


关于我

原先在百度和现在团队一直是做 AI 商业化方向,接近小十年的智能语音交互,但是现在还是有很多事情会感觉到兴奋。

有意向可以联系 polandeme@gmail.com


图片


写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

作者提示: 个人观点,仅供参考

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    关键词
    // 相关帖子
    Coming soon...
    • 0
    虚拟办公室Gather重组:AI团队并入Figma;蚂蚁开源Ming-Flash-Omni 2.0:全场景音频统一生成模型丨日报RTRTE_Dev_Comm