Salesforce开源VoiceAgentRAG:双智能体解耦文档获取与响应生成;AI音频芯片第一股傅里叶登陆港交所丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@koki、@鲍勃
01 有话题的技术
1、Speechify 落地 Windows 端侧语音栈:集成 Whisper 与 VITS 模型,支持 NPU 离线听写与 TTS 朗读
语音 AI 服务商 Speechify 推出 Windows 原生应用,通过利用 Copilot+ PC 的 NPU 及主流 GPU 算力实现端侧语音处理。该应用整合了听写、文档朗读及跨应用转录功能,旨在通过本地化部署解决数据隐私问题并降低响应延迟。
全端侧硬件加速架构:在配备 AMD、Intel 或 Qualcomm NPU 的 Copilot+ PC 以及搭载 Intel/AMD GPU 的 Windows 11 设备上,语音处理任务完全在设备本地执行。
三路专用模型集成:系统内置基于 Whisper 的转录模型、用于实时语音活动检测的 Silero 开源模型,以及用于文本转语音(TTS)的 VITS Neural 模型。
VITS Neural 多语速生成:该模型支持 7 种音频生成速度预设,可针对 PDF、Word 文档及网页提供原生级别的长文本朗读。
混合部署切换机制:应用允许用户在本地推理模型与云端高精度模型之间进行手动或实时切换,以平衡算力消耗与识别准确度。
原生 API 听写与跨应用交互:支持全局环境下的跨应用(Cross-app)听写功能,并将此前仅限于浏览器的会议转录功能延伸至系统级原生应用。
( @Techcrunch)
2、通义实验室发布 CoPaw 1.0:主打隐私安全的个人智能助理,实现 2B-9B 定制模型本地化运行
通义实验室正式发布个人智能助理 CoPaw 1.0 稳定版。该版本核心定位为「隐私优先」的本地 Agent 方案,通过 Trinity-RFT 框架定制了 2B/4B/9B 多尺寸小模型,支持在普通个人电脑(Mac/Win/Linux)实现 100% 数据不出设备。
通过建立三道安全防线与异步多智能体架构,CoPaw 1.0 实现了高并发、可控且低成本的个人任务自动化处理。
分层式个人数据安全防御:实时拦截针对个人系统路径(如 ~/。ssh/)的非法访问,针对 rm 或 sudo 等高危个人操作强制二次确认。在安装个人插件/技能前进行静态扫描,严防恶意代码窃取个人密钥。
多身份工作空间隔离(Workspace Isolation):支持在同一实例内运行多个独立的个人分身(如「工作助手」与「生活管家」),各分身拥有独立的记忆、配置与对话历史,确保不同场景的个人数据互不污染。
分层记忆管理机制(ReMe 驱动):针对个人长周期交互优化,自动将历史信息压缩为结构化摘要,通过向量与全文检索融合,确保智能体能精准召回数天甚至数月前的个人偏好与任务细节。
极简交互与透明复盘:采用 Spark-Design 升级界面,支持按频道过滤中间推理过程,并提供详细的 Token 消耗可视化账单,方便个人用户复盘模型运行成本与效率。
GitHub 链接:
https://github.com/agentscope-ai/CoPaw
(@通义实验室)
3、Salesforce 发布 VoiceAgentRAG:双智能体异步架构将语音 RAG 检索延迟降低 316 倍
Salesforce AI 研究团队发布开源项目 VoiceAgentRAG,旨在解决语音 AI 场景下 200ms 的严苛延迟挑战。通过将文档获取与响应生成解耦,该架构将标准向量数据库查询产生的 50–300ms 延迟压缩至 0.35ms 的本地缓存命中延迟,实现了 316 倍的性能提升。
「快言-慢思」双智能体内存路由:系统由两个并发 agent 组成。Fast Talker(前台)处理 0.35ms 的关键延迟路径,优先检索本地内存语义缓存;Slow Thinker(后台)持续监控对话流,利用最后 6 轮对话预测 3–5 个后续话题,并在用户提问前预取文档片段。
基于文档嵌入的 FAISS 语义缓存:采用内存 FAISS IndexFlat IP(内积)索引。与传统基于查询意义索引的缓存不同,该系统通过文档嵌入(Document-Embedding)进行索引,确保即使在用户措辞不稳定的情况下,缓存也能通过语义搜索提供准确上下文。
精细化检索策略与阈值管理:系统设定的余弦相似度阈值以平衡查准与查全率;引入 PriorityRetrieval 机制,在缓存未命中时触发 2 倍 Top-k 的扩展检索,快速覆盖新主题区域。
自动化缓存维护机制:采用最近最少使用(LRU)驱逐策略及 300 秒的生存时间(TTL)管理内存。通过 0.95 余弦相似度阈值检测并过滤近似重复项,确保缓存空间的高效利用。
(@marktechpost)
02 有亮点的产品
1、「AI 音频芯片第一股」傅里叶正式登陆港交所,开盘大涨 112%!年销 4.7 亿颗芯片
3 月 31 日,傅里叶成功在港交所主板上市,正式成为「AI 音频芯片第一股」,国泰君安国际及东方证券国际为联席保荐人。傅里叶半导体是国内领先的感知智能芯片设计企业,采用 Fabless 轻资产运营模式,专注智能音频与触觉反馈芯片的研发、设计与销售,核心亮点突出,是国产替代赛道的标杆企业。按 2024 年出货量计算,公司在全球功放音频芯片领域稳居前三,中国市场排名第二,智慧屏专用音频芯片国内市占率第一,行业头部地位稳固。
傅里叶本次香港 IPO 全球发售 1200 万股 H 股股份,公开发售占 20%,国际发售占 80%。最终发售价为每股 40 港元,全球发售净筹约 4.23 亿港元。其中,公开发售获 3118.43 倍认购,国际发售获 2.93 倍认购。31 日开盘,傅里叶涨 112.62%,报 85.05 港元/股,市值 95.26 亿港元。
(@IPO 早知道)
2、Runway 设立 1000 万美元基金与 Builders 计划:加速「多模态视频智能」生态与通用世界模型落地
Runway 宣布成立 1000 万美元风险基金并启动 Builders 计划,旨在扶持构建于其模型之上的早期初创企业。该计划的核心目标是将技术触角从单一的视频生成延伸至「多模态视频智能」,通过开放 API 信用额度支持开发者在 AI、媒体及世界模拟领域开发垂直应用。
依托去年 12 月发布的「通用世界模型(General World Models)」,Runway 试图通过生态投资,将视频生成能力转化为具备物理常识、可模拟现实世界的底层智能引擎。
目前已披露的投资组合聚焦于多模态上下游协同,包括为多模态数据提供基础设施的向量数据库 LanceDB、实时音频生成平台 Cartesia,以及利用 AI 进行蛋白质设计的 Tamarind Bio。
下一代模型核心逻辑在于视频、音频、图像与文本的深度对齐(Alignment)。Runway 的战略重点在于通过投资基础设施层,确保其模型能高效处理及检索非结构化的多模态数据。
(@Techcrunch)
3、Meta 发布 Ray-Ban Meta Gen 2 近视定制款:影像分辨率提升 150%,支持 EMG 腕带手写输入
Meta 正式推出专为近视用户设计的 Ray-Ban Meta Scriber 与 Blayzer(Gen 2)智能眼镜,通过定制化镜框结构适配全度数镜片。该版本在影像分辨率与续航表现上实现翻倍增长,并同步更新了基于端侧处理的 AI 摘要及肌电(EMG)腕带交互功能。
影像与续航规格翻倍:拍摄分辨率从上一代的 1360 x 1880(2.6MP)提升至 2203 x 2938(6.5MP);综合电池续航从 4 小时延长至 8 小时,待机时间提升至 19 小时。
端侧 AI 消息处理与摘要:通过早期体验计划(EAP)引入 WhatsApp 消息摘要功能,支持语音调取群聊重点,所有交互均在设备端处理并支持端到端加密。
EMG 腕带与多模态营养追踪:支持通过肌电腕带在任意表面手写录入文字以实现隐形回复;多模态智能体支持通过语音或拍照识别膳食并自动记录营养数据。
实时语音翻译扩展:预计今夏将实时语音翻译语种扩展至 20 种,新增对中文、韩语、日语及阿拉伯语的支持。
( @AI Vision)
4、XSwitch 发布 A 系列硬件及 v6.5.3 预览版:端侧 6TOPS NPU 算力,支持全私有化 LLM 部署
XSwitch 正式发布 A 系列与 X 系列硬件终端,并同步更新 v6.4.4 稳定版与 v6.5.3 预览版。本次更新核心在于通过端侧 NPU 加速实现 ASR、TTS 及 LLM 的深度集成,提供从 CPU 纯软推理到 GPU/NPU 异构加速的全场景私有化通讯解决方案。
A 系列硬件搭载 6TOPS 端侧算力:A200 与 A800 型号内置瑞芯微(Rockchip)独立 NPU,提供 6TOPS AI 算力,A100 采用 OpenWRT 24.10.4 内核,A800 支持 Docker 容器化部署。
全链路 AI 智能体集成:v6.5.3 预览版打通语音识别(ASR)、大模型对话(LLM)、语音合成(TTS)及知识库问答;支持主流第三方 API 对接或基于本地模型的完全私有化部署。
异构计算与混合部署模式:针对隐私与成本需求,支持「脱敏数据上云」的云边端混合模式及「零上云」全私有模式;推理端兼容纯 CPU 运行、CPU+NPU 混合加速以及 GPU 统一内存计算。
多协议客户端与视频架构更新:同步推出基于 SIP 的 CherryCall 与基于原生 WebRTC 的 VibCall(面向 iOS/macOS 优化);视频会议 MVP 版采用 MCU+SFU 融合架构,支持屏幕共享与跨端登录。
完整产品介绍:
https://mp.weixin.qq.com/s/VxXMn2O1fqFUI_rlEryufg
(@小樱桃科技)
03 有态度的观点
1、DeepMind 之父坦言:我造的 AI 可能灭绝人类,但已无人能停下
近日,DeepMind 创始人德米斯・哈萨比斯坦言,其研发的超级人工智能存在灭绝人类的风险,而当前 AI 发展竞赛已进入无法停止的状态,人类难以通过外部治理手段有效管控。他彻底放弃此前依赖制度、伦理委员会约束 AI 的构想,承认治理结构在关键决策中难以发挥作用,只能依靠自身争取话语权来把控 AI 安全走向。
哈萨比斯一直是 AI 安全的坚定倡导者,早年曾设想通过独立监督、秘密研发等方式打造绝对安全的超级智能。2014 年将 DeepMind 出售给谷歌时,还明确要求保留 AI 安全独立决策权、设立外部监督委员会并禁止军事应用。但这些安全构想接连落空,马斯克参与相关集会后转而创立 OpenAI,打破了单一主体管控 AI 的设想,后续与谷歌的治理权谈判也以失败告终。
2022 年 ChatGPT 的出现,彻底打乱了 AI 研发节奏,谷歌陷入竞争焦虑,DeepMind 与谷歌大脑合并,安全规范让位于研发速度,此前的安全防线逐步失效。哈萨比斯由此认清现实,在商业竞争与技术竞赛压力下,依附于商业巨头的非营利治理机制难以存续。
如今哈萨比斯转变思路,核心主张是让自己占据核心决策位置,凭借对 AI 风险的敬畏之心,在关键节点把控技术方向。他一边推进 Gemini 等模型研发,一边坚守安全底线,试图以个人影响力降低 AI 失控风险。业内分析认为,这一转变折射出全球 AI 竞赛的残酷现状,统一治理难以实现,AI 安全窗口持续收窄,人类正面临关乎文明存续的巨大挑战。
(@雷锋网)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
作者提示: 个人观点,仅供参考