飞书联手安克创新发布首款硬件 AI 录音豆;ElevenLabs 洽谈新一轮融资:估值或达 110 亿美元丨日报

图片


开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@瓒an、@鲍勃

01 有话题的技术

1、无界方舟 AutoArk-AI 发布 GPA 语音大模型:0.3B 轻量化架构实现 ASR/TTS/VC 统一建模

图片


图片

在克隆参考音频样本的音色的同时,从文本合成语音。

无界方舟 AutoArk-AI 正式推出通用音频模型「GPA」。该模型基于统一的自回归 Transformer 架构,在单一的大语言模型框架下,集成了语音识别(ASR)、语音合成(TTS)和语音转换(VC)三大核心任务


该模型的设计初衷在于改变传统语音系统碎片化的 Pipeline 设计模式。通过 0.3B 的轻量化参数量级,GPA 旨在实现端侧的高效部署以及跨任务的泛化能力


在技术架构上,GPA 放弃了任务特定的输出头,转而采用统一的离散音频 Token 空间。这一设计将理解、生成与编辑任务收敛至单一自回归模型中,从而减少了跨任务处理过程中的性能损耗。


交互方式上,模型采用指令驱动机制,通过文本指令来引导任务行为。它支持零样本语音克隆,用户无需调整架构或进行针对性微调,即可在 ASR、TTS 和 VC 之间进行动态切换。


针对边缘计算场景,官方提供了优化的 0.3B 参数版本。该版本兼容性广泛,支持 vLLM、llama.cpp、SGLang、MLX-LM 以及端侧硬件框架 RKNN。


在流式推理的延迟指标方面,测试数据显示:在 TTS 任务中,单并发平均 TTFC(首包延迟)为 258.8ms,RTF(实时率)为 0.197;在 ASR 任务中,单并发平均 TTFT(首 Token 延迟)为 157.5ms,能够支持高并发吞吐场景。


在性能对标测试中,针对中文 SEED 数据集的 TTS 零样本测试显示,GPA-0.3B 的 CER(字符错误率)为 0.95%。数据显示,该成绩优于同参数量级的 F5-TTS 模型。


目前,该模型的代码已开源,相关论文与 Demo 即将上线。使用许可方面,模型目前仅供学术研究与个人教育使用。


GitHub: 

https://github.com/AutoArk/GPA


( @GitHub)


2、ElevenLabs 洽谈新一轮融资:估值或达 110 亿美元,有望成英国最有价值 AI 初创公司

图片


据英国《金融时报》报道,AI 语音生成公司 ElevenLabs 正洽谈新一轮融资,计划从投资者处募集数亿美元资金。若交易达成,其估值或将在数月内翻倍至 110 亿美元


这一跃升将使 ElevenLabs 超越估值约 80 亿美元的自动驾驶公司 Wayve,成为英国最有价值的人工智能初创公司;同时,也将使其跻身欧洲顶尖行列,逼近法国 AI 模型公司 Mistral 约 120 亿美元的估值水平。


此次融资谈判距离公司上一次二级股份出售仅过去四个月,当时的估值为 66 亿美元。据悉,目前的会谈仍处于早期阶段,具体情况可能存在变数。


ElevenLabs 于 2022 年由波兰企业家 Mati Staniszewski 和 Piotr Dabkowski 在伦敦创立,目前已获得红杉资本(Sequoia)、Iconiq、Andreessen Horowitz、NEA 及 FT Ventures 等多家知名风投机构的支持。为了便于获取美国资本,公司已在美国注册,并在伦敦和纽约设有双总部。


在业务层面,ElevenLabs 专注于利用 AI 生成逼真的语音,广泛应用于客服、文本转语音及多语言配音等场景。公司业绩增长迅猛,去年年度经常性收入(ARR)已达到 3.3 亿美元,较 9 月份公布的 2 亿美元有显著提升。


宏观来看,尽管全球投资者对 AI 初创企业的兴趣持续高涨,但欧洲公司在募资规模上仍滞后于美国。作为对比,美国巨头 OpenAI 据传估值已达 5000 亿美元,并正商谈最高达 800 亿美元的新一轮融资,投后估值可能突破 8000 亿美元。


( @Benchmark Studio)


3、红杉资本「覆盖赛道」押注 Anthropic,新一轮融资目标约 250 亿美元,预计最快今年 IPO

据《金融时报》报道,红杉资本计划加入对 AI 初创公司 Anthropic 的新一轮重磅融资。此举打破了风险投资界通常避免在同一领域支持竞争对手的传统惯例,因为红杉此前已同时投资了 OpenAI 和埃隆·马斯克的 xAI。


本轮融资由新加坡政府投资公司(GIC)和美国投资机构科图(Coatue)领投。据报道,两家机构各出资 150 亿美元。Anthropic 计划以 3500 亿美元的估值筹集 250 亿美元或更高资金,这一估值较四个月前的 1700 亿美元已翻了一番以上。此外,微软和英伟达据称已承诺共同出资最高 1500 亿美元。


红杉此次的投资时机颇受外界关注。OpenAI CEO 萨姆·奥尔特曼此前曾明确表示,虽然不禁止投资者投资竞品,但若投资者对竞争对手进行「非被动投资」,其接触 OpenAI 机密信息的权限将被终止。


尽管面临潜在的利益冲突,红杉仍选择进一步深化在 AI 领域的布局。此前,红杉不仅支持了奥尔特曼创立的 Loopt 和其引荐的 Stripe,也通过投资 xAI、X、SpaceX 及 Neuralink 等公司与马斯克建立了广泛联系。


这一策略转变发生在该机构经历戏剧性的管理层变动之后。近期,红杉全球掌门人罗洛夫·博塔(Roelof Botha)离职,由林君睿(Alfred Lin)和帕特·格拉迪(Pat Grady)接手。这种多点押注的策略,与 2020 年红杉因利益冲突而放弃 Finix(Stripe 竞对)投资的历史立场形成了鲜明对比。


此外,报道还透露,Anthropic 正在积极筹备首次公开募股(IPO),最快可能在今年年内进行。


( @Z Potentials、@TechCrunch)


4、NVIDIA 发布 PersonaPlex:基于 Moshi 架构的 7B 全双工对话模型,支持混合 Prompt 定制

NVIDIA ADLR 团队近日正式发布了 PersonaPlex,这是一个参数量为 7B 的原生全双工语音对话模型。该模型通过摒弃传统的 ASR→LLM→TTS 级联架构,实现了超低延迟的实时语音交互,并着重解决了全双工模型在角色与音色自定义方面的局限性


在架构设计上,PersonaPlex 基于 Kyutai 的 Moshi 架构及 Helium 语言模型构建,并采用了 24kHz 采样率的 Mimi 神经音频编解码器。该架构支持模型同时处理音频输入流与输出流,从而具备了实时打断、背向渠道(Backchanneling,如「嗯」、「噢」)以及自然的轮替节奏等全双工特性。


为了提升定制化能力,模型引入了混合提示机制。该机制包含双路输入控制:通过音频嵌入提取参考音频的声学特征,以控制发音风格与韵律;同时利用文本指令来定义角色的设定、背景知识及交互逻辑。


在训练数据方面,团队采用了脱耦与融合策略。模型使用了 1,217 小时的 Fisher English 真实对话语料来学习打断、情绪反馈等交互行为,并结合了约 2,250 小时由 Qwen3-32B 和 Chatterbox TTS 生成的合成数据,以强化指令遵循能力。


评测结果显示,在 FullDuplexBench 及新增的 ServiceDuplexBench 测试中,PersonaPlex 在顺滑轮替和暂停处理等指标上优于 Gemini 2.0 Flash Live 等商业模型。此外,在未见过的极端场景(如太空紧急状况响应)中,模型也展现出了技术推理与情绪同步能力


目前,该项目的代码采用 MIT 开源协议,模型权重则采用 NVIDIA Open Model License 协议。相关的测试集 ServiceDuplexBench 也将于近期开放。


HuggingFace: 

https://huggingface.co/nvidia/personaplex-7b-v1


( @NVIDIA ADLR Blog)


02有亮点的产品

1、飞书发布首款硬件「AI 录音豆」:联手安克创新,争夺更近的上下文入口

图片


图片


据「智能涌现」报道,飞书联合安克创新发布首款智能硬件产品「AI 录音豆」,这也是飞书自 2017 年成立以来的首次硬件尝试。该产品被定义为飞书内部的探索性项目,由飞书团队负责软件部分的研发。


在此次合作中,飞书团队主要负责软件层面的研发。该设备通过极轻量化的设计捕捉物理场景语音,并结合豆包大模型,旨在实现办公上下文的自动化沉淀与结构化处理


在硬件形态上,AI 录音豆单体重量仅为 10g,含充电仓总重 48g,内部搭载了双 MEMS 麦克风阵列。产品采用了豆状设计,支持背夹或磁吸佩戴。这一设计旨在降低录音过程中的仪式感,以便更好地覆盖通勤、拜访等碎片化使用场景。


在续航与存储配置方面,配合充电舱使用,该设备可提供 32 小时的总续航时间,并支持快充技术,充电 10 分钟即可录音 2 小时。机身内置 8GB 存储空间,可存储约 250 小时音频,并支持蓝牙与 Wi-Fi 双模式传输。


核心功能方面,设备内置了豆包大模型,支持实时多模态纪要。具体能力涵盖发言人识别、待办事项自动提取以及柱状图等图例的可视化生成,用户可在录音过程中实时查看 AI 总结。


此外,该产品实现了与飞书生态的闭环打通。录音内容会自动沉淀至飞书知识库,用户随后可通过 AI 助手,以自然语言交互的方式对历史音频记录进行语义检索、提问及二次创作。


目前,该产品被定位为飞书内部的探索性项目,具体定价及正式发售日期暂未披露。


(@36 氪)

2、银河通用发布重载机器人 Galbot S1:50kg 双臂负载突破瓶颈,零遥操切入核心产线

图片


「银河通用」正式发布工业级具身智能重载机器人「Galbot S1」。该机器人实现了 50kg 的双臂持续作业负载,并搭载全自主、零遥操的「具身搬运模型」。目前,产品已成功进入宁德时代等头部企业的核心产线,承担重型物料搬运及部件装配任务。


在负载能力上,Galbot S1 实现了显著突破。它拥有 50kg 的双臂持续负载能力,不仅对标人力搬运的极限,更突破了具身智能机器人普遍低于 10kg 的负载瓶颈,有效填补了轻型协作机器人与大型固定吊装设备之间的重载作业空白。


技术层面,该机器人采用了全自主的具身搬运模型。基于纯视觉感知方案,Galbot S1 无需依赖二维码或反光板等外部标记,即可支持动态光照、局部遮挡及人机混行等复杂工况,实现了零遥操下的端到端作业。


针对工业环境的适配性,整机具备 IP54 防水防尘等级,作业高度覆盖 0 至 2.3 米区间,能够适配从地面物料到高位货架的全场景搬运需求。


在续航与安全性方面,Galbot S1 支持 8 小时单次续航及自主换电功能,可实现 7×24 小时连续运转。同时,系统配备了毫秒级安全响应机制与 360° 全向避障能力,确保作业安全。


此外,银河通用通过在宁德时代、博世、丰田等真实产线的长期运行,构建了场景数据闭环,持续强化具身智能大脑在严苛节拍下的稳定性。


目前,公司已完成 21 亿元融资,估值突破 200 亿元,正积极推进千台级的工业部署。


(@量子位)

3、全球首个全年龄段覆盖,京东京造第二批 AI 玩具上线

图片


图片


图片


近日,京东京造正式宣布上线第二批自研 AI 玩具。此次发布的新品在此前针对儿童开发的陪伴玩具基础上,进一步推出了面向年轻人及老年群体的 AI 玩具,实现了全球首个全年龄段用户需求的覆盖


京东 JoyInside 为硬件注入了「长期记忆」与「情境感知」能力,能够理解对话的上下文,也成为首个根据不同年龄段用户的偏好与习惯进行优化的系统平台。


这项能力被深度应用于不同年龄层的需求设计中:系统能识别婴幼儿的哭声并给予安抚,为儿童提供启蒙引导并识别潜在风险,与年轻人进行有深度的主题聊天,也能用方言陪伴老年人,并关注他们的健康与社交需求。


回顾市场表现,首批 AI 玩具上市后,被用户视为「游戏搭子」、「情绪树洞」及「知识导师」,在帮助儿童减少电子屏幕依赖方面发挥了作用。数据显示,接入 JoyInside 的智能硬件平均对话轮次提升超过 120%,多款产品上线即售罄,且保持了极低的退货率。


截至目前,京东 JoyInside 已携手超过 40 家硬件品牌,涵盖 AI 玩具、机器人等品类。


(@IT 之家、@京东黑板报)



03有态度的观点 

1、DeepMind CEO:AGI 5-10 年内实现

日前,Google DeepMind CEO Demis Hassabis 接受了 CNBC 的节目采访,与主持人共同讨论了缩放定律的重要性以及发展通用人工智能(AGI)的持续追求。


Demis 表示,自己依然认为 5 到 10 年内 AGI 能得以实现。


其指出,包括 AI 在内的 AGI 将涉及 LLMs 和世界模型的组合,而不是一个组件取代另一个组件。


Demis 认为,AI 可能需要更好的推理、长期规划和 「世界模型」 的概念,以更好地理解物理学并进行模拟,反映人类科学家的工作。其也强调,除了世界模型之外,AGI 可能还需要其他类型的技术和能力。


同时他也表示,为了使 AI 在科学能力方面取得进步,它需要能够提出新的假设和想法,而不仅仅是解决现有的猜测。


( @APPSO)




04社区黑板报 

招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)


1、招聘 AI Agent 开发工程师

22-35K·13 薪深圳  5-10 年  本科


岗位职责:


  1. 负责 AIAgent 系统的架构设计与工程实现,包括智能体的任务规划、决策逻辑、工具调用以及记忆管理等核心模块。

  2. 深入集成与优化大语言模型(LLM),通过提示工程、微调等技术路径,持续提升 AI 助手的对话质量、逻辑推理能力及任务执行准确性。

  3. 为 AI 助手连接并管理各类外部工具与 API(如搜索、数据库、第三方服务),构建其实际解决问题的能力,同时确保执行过程的安全与可控。

  4. 建立针对 AI 助手性能的评估、监控与迭代闭环,通过数据分析驱动产品体验的持续优化。5.编写高质量、可维护的代码,并将 AIAgent 系统部署至生产环境,保障其高可用性与低延迟。


任职要求:


  1. 计算机科学、软件工程或相关专业本科及以上学历,具备 3 年以上后端或 1 年以上 AI 应用开发经验。

  2. 熟悉 PyTorch、TensorFlow 等主流深度学习框架,具备扎实的工程能力和良好的编码习惯。

  3. 对大语言模型及 AIAgent 技术栈有深入理解和实际项目经验。

  4. 拥有强烈的产品意识和用户同理心,关注技术落地对用户体验的实际影响,具备优秀的数据分析能力和问题解决技能。

  5. 有成功的 ToC 互联网产品或 AI 产品(如智能助手、对话机器人)开发及上线经验者优先。


联系人:李先生

联系方式:26905841@qq.com

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。


对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

作者提示:个人观点,仅供参考

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    关键词
    // 相关帖子
    Coming soon...
    • 0
    飞书联手安克创新发布首款硬件 AI 录音豆;ElevenLabs 洽谈新一轮融资:估值或达 110 亿美元丨日报RTRTE_Dev_Comm