StepAudio 2.5 Realtime 上线,升级副语言感知能力丨日报

图片


开发者朋友们大家好:


这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。


本期编辑:@koki、@鲍勃


01 有话题的技术


1、StepAudio 2.5 Realtime 上线!真人级实时语音对话能力,千万人设任你打造


阶跃星辰正式上线新一代实时语音大模型 StepAudio 2.5 Realtime,重点增强了音频流中的非文本特征解析能力与角色扮演稳定性。开发者现可通过开放平台 API 接口直接接入,构建具备情绪感知并支持深度人设定制的实时语音智能体。


  • 副语言(Paralanguage)原生解析与合成 :模型具备处理语调、语速、停顿以及叹息、轻笑等非文本声学特征的能力。在实时对话中,模型不依赖纯文本转译,可直接分析输入音频的情绪特征,并动态调整生成的语音响应策略。


  • API 级高颗粒度人设自定义:开发者可通过 API 对智能体的性格特质、背景经历、个人好恶及语言习惯进行精细调控。该能力底层基于超 10,000 个原生人设,通过算法裂变生成百万级人设特征矩阵进行泛化训练,以维持长尾话题下的响应稳定性。官方同时内置 5 种预设人设供快速调用。


  • 面向 Roleplay 场景的 RLHF 对齐:针对角色扮演过程中的「人设崩塌」痛点,该版本专门进行了 RLHF(基于人类反馈的强化学习)对齐优化,提升了模型在复杂语义及极端压力测试环境下的身份一致性与指令遵循能力。


(@阶跃星辰)



2、CircuitLaunch 扩展联合制造版图:园区总计 5 万平方英尺,采用零股权纯服务模式

图片


CircuitLaunch 披露其机器人联合制造(co-facturing)中心的最新运营数据及发展规划。该社区明确拒绝传统孵化器的股权置换模式,以提供纯硬件制造服务为核心,目前已累计支持超 120 家初创公司,促成融资总额超 4 亿美元,并正式筹备向旧金山扩张新园区


  • 纯服务商业模式(Zero-Equity Model):明确排除通过参股换取资源的传统孵化器路径,定位为纯粹的电子硬件行业服务提供商。开放基础设备与软硬件生态网络访问权限,会员订阅门槛为 195 美元/月。

  • 硬件联合制造(Co-facturing)本地化:依托微制造设备(micromanufacturing equipment)集群,允许初创团队将原型设计、测试及小批量生产环节全部在内部完成。该模式直接规避了早期过早向海外代工厂转移带来的迭代迟缓与知识产权风险。

  • 双园区 50,000 平方英尺基础设施:包含奥克兰园区及一年前启用的山景城园区(位于原波士顿动力公司办公旧址),总运营面积达 5 万平方英尺,成为包含 Unitree 最新 G1 和 R1 人形机器人等前沿硬件的线下测试与首发阵地。

  • 生态网络与无教材机电培训:与包含 600 多家初创企业的硅谷机器人公司(SVR)建立战略互通网络;同时联合推出机电一体化工程项目 mechlabs.ai,废除传统学术讲座与教科书,完全采用纯项目驱动的重型机械与复杂机器人实操训练体系。


( @gritdaily)



3、曝 DeepSeek 融资 500 亿,梁文锋或自投 200 亿

图片


据悉,DeepSeek 创始人兼 CEO 梁文锋可能会在公司成立以来的首轮融资中,个人投入高达 200 亿元人民币,占募资总额的 40%,成为本轮融资中的最大投资者。DeepSeek 希望在本轮融资中筹集到 500 亿元人民币,这将成为中国 AI 公司史上规模最大的一轮融资


另据一位知情人士透露,中国国家人工智能产业投资基金(大基金)预计将成为 DeepSeek 本轮融资中的第二大投资者。与此同时,这轮融资也促使 DeepSeek 加快创收和商业化进程。


DeepSeek 最近向一些投资者表态,将计划加快模型发布的节奏,使其更接近行业常规速度。其中一位知情人士称,公司计划在 6 月发布其 V4 模型的更新版本 V4.1。DeepSeek 的新模型 V4.1 将为企业用户提供更多工具,并更好地支持 MCP 协议。一位知情人士称,DeepSeek 还计划让 V4.1 能直接处理图像和音频信息,尽管其生成的内容仍仅限于文本。DeepSeek 的本轮融资于 4 月启动,其预期估值已从早期的超 100 亿美元(约合人民币 680 亿元)急剧攀升。4 月 22 日,The Information 曾援引四位知情人士消息报道,腾讯和阿里巴巴正洽谈投资 DeepSeek。此轮融资完成后,DeepSeek 的估值或将超过 3500 亿元人民币


尽管估值迅速飙升,但一些曾与 DeepSeek 进行洽谈的投资者,对 DeepSeek 创造持续性收入以及加快模型发布速度的能力表示担忧。DeepSeek 一直以研究型实验室的声誉著称,将模型开发置于商业化之上


DeepSeek 正致力于将技术转化为可供收费的产品和服务,其员工一直在向各行各业的企业推广其模型,希望能激发合作兴趣。据两位知情人士透露,DeepSeek 还从字节跳动的产品开发团队及其他国内科技公司招兵买马。


(@智东西)



4、VoiceBlender 发布:基于 Go 的 SIP-WebRTC 桥接服务,支持 WhatsApp 通话与 AI 智能体集成

VoiceBlender 是一款由 Go 语言编写的通讯中间件,实现了 SIP 与 WebRTC 协议的高性能桥接。该服务通过 REST API 和 WebSocket 提供多方音频混合、实时录制及 AI 智能体集成能力,旨在解决跨平台语音互通与自动化语音交互的工程化难题。


  • 全协议栈音频兼容性:支持 SIP 入站/出站(UDP/TLS),覆盖 PCMU、PCMA、G.722 及 Opus 编码;WebRTC 侧支持基于 SDP Offer/Answer 的 trickle ICE 交互;原生兼容 WhatsApp Business Calling(通过 SIP-TLS + DTLS-SRTP 接入 wa.meta.vc:5061)。

  • 高性能音频混合引擎:支持 N 个参与者的多方房间模式,采用「混合减去自身」(mixed-minus-self)算法;采样率支持 8 kHz、16 kHz 及 48 kHz 自定义配置;提供基准 PCM 帧的 WebSocket 实时访问。

  • AI 智能体与媒体注入:可将对话式 AI 智能体(集成 ElevenLabs、VAPI、Deepgram 等)直接挂载至通话链路,支持会话中上下文注入;内置 TTS/STT 接口及多供应商支持,支持实时语音转录与音频回放

  • 电信级信令与分析控制:支持 RFC 4028 会话计时、SIP re-INVITE 保持/释放及 RFC 4733 DTMF 事件广播;内置基于 Goertzel 频率分析的应答机检测(AMD),可精确识别语音信箱提示音。

  • 开发者友好监控与扩展:提供 VSI(WebSocket 事件流)实现单连接多租户隔离指令控制;Webhook 支持 HMAC-SHA256 签名与重试机制;原生暴露 Prometheus 指标及 pprof 性能分析接口。


https://github.com/voiceblender/voiceblender


( @GitHub)


02 有亮点的产品


1、阿里千问 AI 眼镜 S1 系统升级:引入双目 3D 空间显示,接入核心应用开放主动调度能力

图片


图片


图片


阿里正式推送千问 AI 眼镜的系统级更新,底层逻辑由单次问答响应转向基于上下文感知的主动式智能体调度。硬件层面通过双光机模组首次在轻量级眼镜端实现立体 3D 视觉输出。此次更新深度调用了阿里生态内的支付与 LBS 应用接口,旨在验证端侧多模态模型在复杂真实场景下的任务闭环能力。


  • 双光机 3D 空间显示:基于双光机搭配双目立体成像技术,将原有的二维 HUD 叠加显示升级为具备景深参数的 3D 空间显示。目前该特性已覆盖系统桌面图标、提词器文本高亮及导航界面。

  • 主动式智能体调度:模型端升级意图推测与上下文多模态记忆(时间、位置、运动指标等)。支持触发式任务执行,例如识别久坐/凝视屏幕触发健康提醒,或基于身体指标与习惯自动编排运动计划并推送音频。

  • 生态应用深度 API 接入:直接调用支付宝视觉识别接口实现扫码解锁共享单车;接入高德地图数据流,支持打车实景寻车以及基于「扫街榜」的实体店面检索;打通票务与外卖系统以支持订单状态的实时悬浮显示。

  • 多模态数据处理优化语音翻译模块升级为音色克隆同传,保留原说话人音色与语调;录音纪要功能支持结合视觉采集数据,生成图文混合格式(Text + Image)的结构化会议记录。


(@智东西)



2、Familiar Machines 推出四足机器宠物 Familiar:集成端侧多模态感知,支持数十个动作自由度

图片


前 iRobot 创始人 Colin Angle 成立初创公司 Familiar Machines,推出一款四足伴侣机器人 Familiar。该设备完全舍弃家务等物理实用功能,依托端侧多模态感知技术捕捉用户的表情与肢体语言,并直接输出非人类语言的物理行为与情绪反馈


  • 全端侧数据处理(Edge Computing):性格演化、专属记忆生成及日常多模态交互记录的计算均在设备本地完成,不依赖云端处理,降低家庭私密空间隐私风险。

  • 支持数十个自由度(DOF):底盘与步态算法由前波士顿动力(Boston Dynamics)工程师主导,机身具备数十个自由度,并结合前迪士尼幻想工程专家调校的微表情与肢体动作进行输出。

  • 具备触觉感知的仿生蒙皮:机身弃用传统金属或硬塑料外壳,采用包裹触觉传感器的毛绒材质,支持对用户抚摸等物理接触的实时感知与数据采集

  • 物理级规避 LLM 幻觉风险:系统在语音输出端被硬性设定为「禁止输出人类语言」,仅通过动物拟声词响应多模态指令,以此规避当前大语言模型(LLM)对话幻觉对用户交互体验的破坏。


(@极客公园)



03 有态度的观点


1、伦敦自动驾驶公司 CEO:端到端 AI 是自动驾驶的未来,授权模式将超越特斯拉和 Waymo

图片


伦敦自动驾驶公司 Wayve CEO Alex Kendall 昨日接受彭博电视专访时表示,Wayve 坚持端到端 AI 路线,拒绝依赖高精地图和规则系统,其世界模型 GAIA-3 已可模拟复杂城市驾驶场景


Kendall 将公司的商业模式定义为有别于特斯拉垂直整合和 Waymo 自建车队模式的「第三条路径」,向整车厂和车队授权 AI 技术


我们选择授权这项技术给任何车辆、任何地方。我认为这一模式的可扩展性最强,能以最具性能、安全性和成本效益的方式服务整个行业。


针对「端到端 AI 不可解释」的质疑,Kendall 表示这是所有复杂自动驾驶系统的共性挑战,Wayve 已构建模拟器、反事实分析和数据回放等工具链应对监管要求。


与其为了所谓的可解释性限制可扩展性,我宁愿先做可扩展的系统,再想办法让它变得可解释。这正是 Wayve 正在做的。


目前,Wayve 的合作方涵盖日产、奔驰、Stellantis,以及微软、英伟达、Uber、高通等。日产已宣布计划将 Wayve 技术推广至其全球 90% 的车型。


Wayve 计划今年在伦敦和东京启动监督式 Robotaxi 试运营,并与 Uber 合作扩展至 10 座城市;消费者版辅助驾驶产品预计明年随整车厂量产车型上市。


( @APPSO)

04 Real-Time AI Demo


1、所说即所见:OpenAI 实时语音驱动 AI 动态白板


基于 OpenAI 最新实时语音模型的一个绝佳用例——「实时语音驱动现场演示」:只需你开口说话,白板就会瞬间将你的语音内容转化为可视化展示


想象一下在头脑风暴会议的场景中,随着创意的提出,白板能在现场瞬间生成结构图、流程图,将抽象的想法立刻可视化。


或者当老师授课时,板书跟随着讲解的声音实时、自动地生成;讲到每一个新的知识点,白板立马绘制出相应的原理图,学生可以直观地看到整个知识结构被动态构建出来的过程。


它具备独特的双工作流模式


  • 暂存准备(Staging): 你可以先手动将标题、议程、参考图片等素材拖放到白板上作为基础。

  • 实况接管(Live): 切换后,AI 将全面接管画布,完全根据你的实时语音,动态地进行绘制、修改和重新排版布局。


此外,它还内置了预热机制(Warm-up mechanism):在进入「实况」模式前,AI 会先基于「暂存」阶段的内容进行预热处理,完美避免了当你说完第一句话时,模型却还没准备好响应的尴尬情况。


它还支持纯本地化部署,以满足更高的数据隐私和定制化需求。


项目作者 @kunchenguid


相关链接:

https://x.com/aigclink/status/2052924817184288805


demo 链接:

https://github.com/kunchenguid/autopreso


( @aigclink@X)


05 社区黑板报


招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)



1、516 上海活动报名|让算法大脑进入硬件躯壳:当 AI Agent 有了眼睛


过去一年,我们看到 AI Agent 变得越来越会思考、会规划、会调用工具。但如果它只能停留在屏幕里,它仍然缺少一件很关键的东西:感知真实世界的能力。


当多模态大模型开始成熟,AI Agent 的下一步,可能不只是更强的大脑,而是拥有「眼睛」


摄像头形态硬件、智能眼镜、空间感知终端、可穿戴交互设备,正在成为 AI Agent 进入现实世界的重要入口。模型能力、视觉输入、硬件工程、供应链和产品定义,也开始在同一个问题上汇合。


我们想围绕这个问题,发起一场小型闭门活动。


这不是一场泛泛而谈的 AI 沙龙,也不是只聊趋势的分享会。我们希望聚集 30 位真正对 AI 硬件感兴趣、正在思考或已经动手的 Builder,一起讨论


当算法大脑开始进入硬件躯壳,下一代产品机会会在哪里?


我们希望这场活动不只是一次聊天,而是一次让想法更接近产品的开始。


如果你也在思考 AI 硬件、摄像头形态产品、多模态 Agent,或者正在寻找一起把 Demo 做成产品的人,欢迎扫码填写问卷。


图片

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

作者提示: 个人观点,仅供参考

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    // 相关帖子
    Coming soon...
    • 0
    StepAudio 2.5 Realtime 上线,升级副语言感知能力丨日报RTRTE_Dev_Comm