语音推理模型 Step-Audio-R1.1 荣登全球第一;Manus 新功能:会议语音转录直接生成 PPT 或网站丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@瓒an、@鲍勃
01 有话题的技术
1、能把视频压缩到 0.02%,中国电信 TeleAI 发布 GVC 生成式压缩技术
据量子位报道,中国电信人工智能研究院(TeleAI)发布了一项名为「生成式视频压缩」(GVC,Generative Video Compression)的新技术。
该技术据称能将视频数据压缩率提升至 0.02%,原本 1GB 的视频压缩后仅占 200KB ,且可保持高清画质与连贯细节。
GVC 的核心理念是「用计算换宽带」。
与 HEVC(H.265)或 VVC(H.266)等传统视频编码标准依赖「像素搬运」不同,GVC 不再传递画面像素本身,而是传输语义信息(场景与物体结构)和运动信息(动态变化指令)。
接收端通过预置的扩散模型,结合传输的压缩 Token 指令,利用生成式 AI 实时重建视频画面。
技术报告数据显示,GVC 传输的 Token 大小可压缩至 0.005 bpp - 0.008 bpp(比特每像素)。在极低码率下,使用 LPIPS(感知画质评价指标)对比,GVC 的画质「显著优于」传统 HEVC 标准。
报告指出,传统方法若要达到与 GVC 同等的视觉画质,需消耗 6 倍以上的带宽。此外,在机器视觉任务(如视频分割)的验证中,GVC 重建视频的语义准确性也保持了高水准。
在算力需求方面,TeleAI 团队通过模型小型化与知识蒸馏优化,使该技术可在消费级硬件上运行。数据表明,在 RTX 4090 显卡上,生成一组 29 帧的画面耗时约 0.95 秒至 1.35 秒,适用于非实时或准实时场景。
该技术基于智传网理论体系,旨在解决远洋海事、灾区应急救援、深空探测及自动驾驶数据回传等极端网络环境下的通信难题,标志着视频通信正从像素传输向语义生成转变。
技术报告地址:
https://www.arxiv.org/abs/2512.24300
(@APPSO、@量子位)
2、爱诗科技发布 PixVerse R1:首个 1080P 实时视频生成世界模型,支持自回归流式交互
爱诗科技「AceTech」正式发布实时世界模型 「PixVerse R1」,通过自研架构实现了 1080P 分辨率下的指令即时响应。该模型将视频生成从异步的「离线渲染」转变为同步的「实时编织」,提出了「Playable Reality」(可玩现实)的交互新范式。
Omni 原生多模态基础模型:放弃传统的插件式语意理解,在底层潜空间实现视觉与语意的深度融合,指令下达即触发潜空间的物理世界重构。
自回归流式生成机制:将生成逻辑从「固定长度片段」转向「无限视觉流」,确保交互过程中帧与帧之间的连续性,消除重新加载的刷新感。
瞬时响应引擎与算力调度:通过优化算法逻辑与算力分配,将启动延迟压缩至感知阈值以下,支持根据文本或语音指令实时干预视频演化走向。
技术取舍与挑战:为保障 1080P 的实时性,模型在极致物理细节上做了部分退让;同时官方披露,在长周期生成中仍面临时间误差累积导致的物理模拟波动问题。
模型目前处于内测阶段,采用内测码/定向邀请机制提供早期试用,暂未在中国内地市场全面开放。
试用链接:
https://realtime.pixverse.ai/
(@极客公园)
3、VoiceRun 完成 550 万美元种子轮融资:推出代码原生语音智能体平台,支持端到端自动化评估
「VoiceRun」 宣布完成由 「Flybridge Capital」 领投的 550 万美元种子轮融资。该平台旨在取代传统的低代码可视化编辑模式,通过代码原生的开发环境,允许开发者和编码智能体直接构建、验证并规模化部署高性能的语音智能体。
代码驱动架构:放弃主流语音平台采用的可视化流转图,转而支持纯代码定义对话逻辑。该设计旨在适配「编码智能体」的原生工作流,使其能自动生成逻辑、编写测试用例并进行迭代。
端到端生命周期管理:集成了从代码编写、自动化评估、A/B 测试到一键即时部署的完整流水线,解决语音应用从 Demo 到生产环境迁移困难的问题。
支持复杂长尾场景配置:相比受限于 UI 按钮的功能集,代码模式允许开发者灵活配置特定方言、动态业务逻辑嵌套等细分需求,同时确保客户对业务逻辑代码和数据的完全所有权。
市场差异化定位:产品能力介于低代码工具(如「Bland」、「ReTell AI」)与底层基础设施之间,重点通过工厂化的标准化流程提升语音智能体的稳定性。
平台已上线并向企业开发者开放,目前已在餐厅科技等领域投入商用(如 AI 订座礼宾)。
( @TechCrunch)
4、阶跃星辰语音推理模型 Step-Audio-R1.1 荣登全球第一
全球知名权威大模型评测榜单 Artificial Analysis Speech Reasoning 更新,阶跃星辰原生语音推理模型 Step-Audio-R1.1 登顶榜首。
该榜单是目前业界评估「原生语音模型」(Native Audio Models)最权威的第三方基准之一。核心考量模型直接处理音频并进行复杂逻辑推理的能力,主要考察维度包括准确率、首包延迟等。
和大语言模型同理,语音模型同样需要具备强大推理能力,才能提供更高阶智能、更自然交互。
Step-Audio-R1.1 以 96.4% 准确率,超越 Grok、Gemini、GPT-Realtime 等主流一线模型,刷新历史最好成绩。
在性能与速度的综合权衡上,Step-Audio-R1.1 全面碾压同类语音模型。
Step-Audio-R1 是由阶跃星辰发布的全球首个开源原生语音推理模型。它可以在不增加额外时延的情况下,端到端理解语音内容,「像人类一样听到对话即可思考」。
核心能力包括:
深度语音推理
实时响应能力
音频领域的可扩展 CoT
Step-Audio-R1.1 是最新升级版本,兼顾更强实时对话和复杂语音推理能力。完整的实时语音 API 将在 2 月上线,目前开放的 chat 模式已搭载 R1.1 核心,支持边想边说的流式推理。
GitHub:
https://github.com/stepfun-ai/Step-Audio-R1
(@阶跃星辰)
02 有亮点的产品
1、Born 发布「Friends」AI 多智能体伴侣平台:DAU 突破 100 万,同步预览多模态写实数字人「Life」
Born 宣布将其单角色 AI 应用 「Pengu」 升级为多角色平台 「Friends」,并达成 100 万日活跃用户里程碑。公司同步预览了具备光线追踪级别视觉效果的数字伴侣 「Life」,主打基于长期交互的个性化性格演化与全模态实时通讯。
多角色垂直化架构:「Friends」平台弃用了单一聊天机器人模式,通过特定功能模型实现场景分发:包括负责社交连接的「Pengu」、专注教育学习的「Mellow」以及提供心理支持的「Bao」。
全模态交互矩阵:预览产品「Life」支持文字、图像、短视频、语音及实时音视频通话。其底层逻辑是让 AI 从被动响应转变为具备主动表达能力的数字实体。
动态参数演化系统:AI 伴侣的行为偏好、性格特征并非静态预设,而是基于用户长期的交互数据进行权重修正,实现数字人格的持续演变。
社交原生生态:该平台强调角色间的共享生态,旨在模拟真实的社交动态而非孤立的 1-on-1 对话,通过多智能体协作环境增强用户的沉浸感。
「Friends」平台目前已正式上线;「Life」处于预览阶段,具体的大规模开放时间及定价策略尚未披露。
( @fabiankamberi@X)
2、OpenAI 收购 Torch Health:构建「ChatGPT Health」及多源医疗数据统一上下文引擎
OpenAI 宣布收购医疗 AI 初创公司「Torch Health」,其创始团队将整体加入 OpenAI,旨在开发名为「ChatGPT Health」的垂直化 AI 工具。此次收购的核心目标是利用 Torch 的技术解决医疗数据碎片化难题,为数亿用户建立统一的个人医疗记忆。
统一医疗上下文引擎:Torch 技术栈核心在于将跨医院、跨实验室、传感器及消费级检测机构的异构数据聚合,转化为 AI 可高效处理的结构化上下文。
解决医疗数据孤岛:针对患者记录散落在多方门户、App 和 Web 端的现状,Torch 提供了一套集成管道,将零散数据流转化为可用于推理的「上下文引擎」。
「ChatGPT Health」垂直应用开发:OpenAI 明确将基于此技术推出针对健康与福祉场景的专用工具,旨在将每周数亿次的通用健康咨询转化为基于个人病史的精准问答。
专业协作与安全性标准:项目强调与执业医师的协作机制,并承诺在数据集成过程中遵循高规格的隐私与安全性标准。
Torch 团队已加入 OpenAI ;相关技术将集成至「ChatGPT Health」;暂未披露具体 API 开放时间或定价详情。
( @IlyaAbyzov@X)
3、Meta 旗下「Manus」上线 Meeting Minutes:实现从语音转录到交付物生成的端到端执行流
「Manus」发布新功能「Meeting Minutes」,将线下会议录制、实时转录与后续执行流整合。该功能不仅提供结构化摘要与任务分配,核心在于允许用户将会议上下文直接导入「Manus」的执行空间,实现从语音到幻灯片、网页等交付物的闭环生产。
上下文驱动的交付物生成:会议记录不再是静态文档,而是作为后续任务的输入参数。用户可在同一任务流内,基于会议共识直接驱动智能体生成 PPT、响应式网站或社交媒体素材。
智能说话人识别与任务分配:系统具备说话人聚类能力,通过识别会议中提及的姓名,将行动项自动关联至特定执行人,提高任务跟踪的准确度。
离线冗余录制机制:针对线下场景优化,仅在会话启动和 AI 分析阶段需要网络。录制过程支持在断网状态下持续进行,确保长时会议的数据完整性。
协作式执行空间:支持邀请团队成员进入同一任务视图,将讨论内容转化为可实时编辑、可共同审阅的结构化输出,而非传统的单向笔记分享。
阶梯式计费模型:录制与基础转录功能免费开放,复杂的 AI 分析、摘要提取及后续物料生成需消耗系统积分,体现了算力资源向推理端的精准分配。
现已向所有「Manus」用户开放;功能内置于 web 移动版及客户端应用;录制免费,分析与生成逻辑按积分计费。
( @ManusAI)
4、OpenAI 强化 ChatGPT 翻译工作流:集成多模态输入,支持 50+ 语言的语境化推理与 UI 本地化约束
「OpenAI」正式推介 ChatGPT 作为高阶翻译工具的深度集成方案。通过结合 Transformer 模型的语境理解能力与多模态(文本、图像、语音)输入接口,该系统实现了从基础文本互译到专业本地化(L10n)工程的跨越。其核心价值在于支持通过 Prompt 进行细粒度的风格控制与文化语境校准。
多模态融合翻译架构:支持通过键盘输入、语音转录及图像上传(OCR 识别)进行多源数据获取。系统可直接处理菜单、路牌截图或 。pdf 文档,并允许针对视觉内容进行追问与深层语义解析。
语境驱动的风格重塑:区别于传统 NMT(神经机器翻译),ChatGPT 支持在翻译过程中通过指令切换多种语态(如:商务礼仪、学术文体、儿童科普),并能识别并解释特定区域的俚语、成语及特定文化背景下的隐含意义。
针对开发者与 L10n 工程师的工程化支持:支持复杂的本地化约束逻辑。例如,可要求模型按照特定国家(如墨西哥、日本)的商务习俗调整用语,或在翻译软件 UI 标签时遵循特定字符长度限制及标准 UX 术语规范。
交互式语法校验与双向反馈:提供实时翻译后的解释功能,用户可针对翻译结果中的语法逻辑进行后验查询。通过对话上下文,模型能根据后续修正持续优化同一段内容的输出质量。
功能已在「ChatGPT」全平台(Web, iOS, Android)上线,支持 50 种以上语言,免费用户及 Plus/Enterprise 用户均可使用。
相关链接:
https://manus.im/blog/manus-meeting-minutes
( @OpenAI、@jukan05@X)
03 有态度的观点
1、小米潘九堂:没有哪家成功的企业不大量模仿别人
近日,小米产业投资部合伙人潘九堂连续两天在微博发文,围绕模仿与创新及友商评估 Pro Max 机型等行业讨论作出回应。
潘九堂昨日表示,模仿是创新的基础,产业进步本质上是企业在相互模仿、启发与微创新中共同推动。
他强调「没有哪家成功企业不大量模仿别人,也没有哪家企业只靠模仿可以取得成功」,并指出模仿、学习、对标在行业中十分常见,无需被污名化。
而针对此前博主爆料「多家友商评估 Pro Max 机型」的传闻时,潘九堂表示,对标是最常见的商业策略,不仅大陆厂商如此,苹果、微软、Google 等海外巨头也长期通过「买 + 抄」方式吸收外部技术。
他引用行业历史案例指出,施乐 PARC 研究中心的 GUI 技术曾被苹果借鉴,而后又被微软吸收,显示技术流动与模仿在科技史中极为普遍。
此外,潘九堂昨日还间接否认了网上流传的卢伟冰离职传闻,称其为小米引入的企业家级别重磅高管,深受公司内部认可,并评价「百将易得,一帅难求」。
( @APPSO)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
作者提示: 个人观点,仅供参考