Talksign-1:百毫秒级手语双向翻译模型;保险经纪平台 Jointly:AI 能自己打语音电话、排队、砍价丨日报


开发者朋友们大家好:


这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。



本期编辑:@瓒an、@鲍勃



01 有话题的技术


1、打破无声壁垒:AI 初创公司 Talksign 发布百毫秒级手语双向翻译模型 Talksign-1

由尼日利亚与英国团队共同创立的人工智能初创公司 Talksign 发布了其首个手语理解基础模型 Talksign-1。据官方披露,该模型能够在 100 毫秒内将美国手语(ASL)快速转化为语音和文本


Talksign 由 Edidiong Ekong 和人工智能工程师 Kazi Mahathir Rahman 于 2025 年 11 月创立,聚焦于打破聋人和听障群体在数字工具与日常服务中面临的沟通壁垒。此次发布的 Talksign-1 模型展现出以下核心技术特征:


  • 双向转化能力:系统通过标准网络摄像头捕捉用户的面部、手部及身体动作,将手语翻译成语音;同时,它也能将口语或输入的文本反向转化为手语视频序列。

  • 识别精度与平衡:该模型基于大规模手语数据集 WLASL2000 进行训练。系统在分析约一秒钟的手语动作后做出预测,兼顾了速度与准确性。目前该模型支持 250 个美国手语手势,单手势测试准确率达到 84.7%。

  • 设备端隐私保护:系统在用户设备的浏览器中进行特征点提取,仅将处理后的数据点发送至服务器进行分析,全程不传输原始视频数据。


在现阶段的局限性方面,该模型目前仅适用于孤立的手势识别,尚不支持连续的句子级翻译或指拼法。开发团队也明确提示,在缺乏人工监督的情况下,该技术不应作为医疗、法律或安全等高风险环境下的唯一判定依据。


根据世界卫生组织的数据,全球有超过 4.3 亿名聋人,其中 7000 万人将手语作为主要沟通方式。在整个研发过程中,Talksign 与聋人教育工作者、母语为 ASL 的使用者以及无障碍倡导者保持了密切合作。未来,公司计划进一步扩充模型的词汇量,攻克连续手语识别技术,并将语言支持范围扩展至英国手语和法国手语。


https://www.talksign.co/blog/introducing-talksign-v1


( @TechCabal)



2、曝 DeepSeek V4 即将发布

据路透社报道,DeepSeek 最快将于下周发布新一代 AI 模型,外界普遍推测该版本即为 DeepSeek V4。


而据晚点报道,DeepSeek 在春节前后仅对现有模型进行了小幅升级,而外界关注的下一代旗舰版本 DeepSeek V4 则预计会在 3 月前后发布


CNBC 报道称,市场已进入「严阵以待」状态,部分投资机构担忧 DeepSeek 再次引发类似去年模型发布时的市场剧烈波动。


当时,英伟达股价一度下跌近 17%,瞬间蒸发 6000 亿美元。


( @APPSO)



3、Vercel 开源 Chat SDK 公测版:跨平台 TypeScript 框架支持 JSX UI 渲染与 AI 流式传输

Vercel 宣布开源 Chat SDK 公测版,这是一套统一的 TypeScript 库,旨在解决跨平台聊天智能体(Agent)开发中的 API 碎片化问题。通过该 SDK,开发者只需维护单一逻辑代码库,即可将智能体同步部署至 Slack、Discord、Microsoft Teams、Google Chat 等主流平台。


  • 统一事件驱动架构:提供类型安全的 Handler 接口,可标准处理提及(mentions)、消息、表情回应(reactions)及斜杠命令(slash commands)等跨平台通用操作。

  • 基于 JSX 的声明式 UI 抽象层:允许开发者使用 JSX 编写 Card 和 Modal 组件,SDK 自动将代码转换为各社交平台对应的原生 UI 渲染格式。

  • 原生集成 Vercel AI SDK:post() 函数直接兼容 AI SDK 的 textStream 接口,支持 AI 响应内容在各聊天平台实现毫秒级的实时增量推送(Streaming)。

  • 插拔式分布式状态管理:内置针对 Redis、ioredis 及 In-memory 的存储适配器,用于处理分布式环境下的会话状态与数据持久化。

  • 高度模块化的适配器系统:核心逻辑与平台适配层解耦,目前已支持 GitHub、Linear 及主要即时通讯平台,支持通过 Hono、Next.js 等框架进行部署。


https://vercel.com/changelog/chat-sdk


(@Vercel Blog)



02 有亮点的产品


1、能自己打电话、排队并砍价的 AI:Jointly AI 发布端到端保险经纪平台

2026 年 2 月 19 日,Jointly AI 宣布推出全球首个端到端自主人工智能保险经纪平台 Jointly AI Broker。该平台面向英国个人险经纪人,能代理客户执行操作,利用语音 AI 致电保险公司、导航语音菜单、排队并协商报价,将原本耗时数天的流程缩短至 35 到 45 分钟


其核心工作流由企业级编排层协调,包含五个专属 AI 智能体:


  • 接待智能体:全天候接听电话,通过自然语音对话收集客户需求。

  • 研究智能体:搜索市场,核对金融行为监管局(FCA)注册资质并生成候选名单。

  • 报价智能体:最多可并行四通电话,自主致电保险公司获取真实报价。

  • 分析智能体:依托专有大语言模型,对报价进行标准化处理与评分。

  • 交付智能体:通过电话或邮件向客户提供最佳推荐、备选及预算方案。


该系统架构严格遵循金融监管标准,数据提取设有多重校验,遇低置信度会主动询问而非猜测;并具备掉线重拨及营业外时间延后重试机制。所有操作均实时记录供审计。鉴于保险经纪人通常将 60%的时间耗费于行政任务,该平台能大幅释放人力以专注复杂案件及客户关系。目前产品已向合作伙伴开放抢先体验。


https://www.getjointly.ai/insurance-ai-agents


( @The Desert Sun)



2、从 Genie 3 到 Yoroll,AI 视频原生游戏加速落地

2026 年初,AI 视频原生游戏迎来实质性落地。1 月 29 日,Google 开放 Genie 3 部分能力,实现生成画面实时响应 WASD 操作。2 月 12 日,字节跳动即梦平台发布 Seedance 2.0,凭借复杂运动场景下的高可用率及原生音画同步引发广泛关注。这一视频原生模型制作范式的崛起引发资本市场重估,导致传统引擎巨头 Unity 股价暴跌 60%,Roblox 等公司亦出现约 20% 的下跌。

在此背景下,LinearGame 旗下平台 Yoroll 提前布局,将实时生成内容纳入可控交互框架。针对目前世界模型体验不稳定、缺乏剧情与玩法等痛点,Yoroll 在视频模型之上搭建了完整的游戏系统:


  • 画面与动作生成:通过生成模型实时输出连续的场景与角色行为。

  • 行为判定:系统识别玩家操作并将其转换为明确的事件。

  • 游戏逻辑:以确定性的方式存储分支进度、道具及角色状态。


Yoroll 精准切入互动影游领域,创作者仅需输入设定与关键节点,系统即可自动连接叙事路径并加入 QTE(快速反应事件)。同时,Seedance 2.0 在动作格斗生成上的极高稳定性成为了天然加速器。结合前者的生成能力与后者的交互框架,Yoroll 推出了《Daydream Valkyrie》预告片,成功将武打视频流解析为可交互的底层数据,催生出 AI 动作格斗等全新游戏品类。


这种模式将制作成本降至传统模式的约 1/100,生产力提升数十倍,使 1 至 3 人的小团队即可完成游戏开发。目前 Yoroll 官网已公布超 6 款计划于 2026 年上半年上线的游戏,平台当前正处于创作者邀请码内测阶段。


相关链接:https://yoroll.ai/


( @Z Potrntials)



3、支持自然语言生成乐器与精准编曲:谷歌推出 AI 音乐创作平台 ProducerAI

2 月 24 日,谷歌宣布生成式 AI 音乐创作平台 ProducerAI 正式加入 Google Labs。该平台作为创作者的得力助手,可将简单的文字提示转化为动态、完整的音乐作品或跨流派的音乐视频。


ProducerAI 结合了 Google DeepMind 的 Gemini、Lyria 3、Veo 和 Nano Banana 等模型。其核心技术与功能特征包括:


  • 搭载 Lyria 3 预览版模型:该高保真模型具备极强的音乐理解力,提供对节奏、编曲及时间对齐歌词等参数的精细控制。

  • 创新的 Spaces 功能:允许艺术家通过自然语言创建全新的乐器和效果器(涵盖简单的键盘到基于节点的模块化音频修补环境),且这些微型应用支持在用户间共享和重混。

  • 采用 SynthID 技术:平台生成的所有音频均嵌入了这种隐形水印,用于明确标识由谷歌 AI 生成的内容。


该平台的研发深度契合音乐人的实际需求,吸引了从初学者到格莱美获奖说唱歌手 Lecrae 以及 The Chainsmokers 等知名音乐人的加入。The Chainsmokers 成员 Alex Pall 评价指出,平台的创始人兼具技术能力与音乐人直觉,深刻理解如何让 AI 成为创作过程中的加分工具。此外,谷歌此前还通过 Music AI Sandbox 与 Wyclef Jean 等艺术家展开实验性合作,这些行业经验也为最新模型的研发提供了关键支持。


目前,ProducerAI 已在全球范围内通过其官网提供服务,并设有免费与付费两套方案供用户选择。


相关链接:

https://www.producer.ai/


( @Google Blog)



03 有态度的观点 



1、OpenClaw 之父:80% 的现有 App 将消失


近日,OpenClaw 之父 Peter Steinberger 接受奥地利国家广播电视台《时代画报》节目专访时提出,「未来几周内,80% 的现有 App 都会消失」。


他认为,当智能体真正能替用户完成从浏览器点击到支付执行的全链路操作时,传统 App 的入口价值将被系统级自动化彻底稀释。


他强调,未来用户不再需要逐个打开应用,而是通过一句话、一个指令,让 Agent 在后台完成所有跨应用的任务流程


他进一步解释称,这一判断的核心逻辑在于:


  • AI Agent 已具备执行真实操作的能力,已从「文本生成」跨入「行动执行」阶段;

  • 用户任务将从 App 中心转向意图中心,当系统能理解并执行复杂任务链,App 的界面与入口将变得多余;

  • 开发者将从构建完整 App 转向构建可被 Agent 调用的能力模块,生态将从「应用」走向「功能」;

  • 用户体验将从手动操作转向自动化流转,AI 将成为操作系统层的默认「代理人」。


Steinberger 认为,这种变化会在短期内引发应用数量的急剧收缩,但背后的公司不会因此消亡,而是会转型为提供 API、能力模块或 Agent 插件的服务商。这不是说某个具体应用会消失,而是使用手机的方式会发生巨大变化。


( @APPSO)

图片


阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

作者提示: 个人观点,仅供参考

注册登录 后评论
    // 作者
    R
    @RTE_Dev_Comm
    还什么也没有写~
    • 0
    // 本帖子
    关键词
    // 相关帖子
    Coming soon...
    • 0
    Talksign-1:百毫秒级手语双向翻译模型;保险经纪平台 Jointly:AI 能自己打语音电话、排队、砍价丨日报RTRTE_Dev_Comm