无屏幕无AI，儿童VoIP语音硬件Tin Can售出数十万台，累计融资1550万美元；OpenAI开源语音控制交互组件丨日报

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@koki、@鲍勃

01 有话题的技术

1、OpenAI 开源 realtime-voice-component：使用语音控制交互界面

OpenAI 发布了基于 OpenAI Realtime API 构建的开源参考实现 realtime-voice-component。该库专为 React 环境设计，旨在为具有明确预定义工具的应用提供低延迟、状态可感知的语音交互界面。

工具受限型（Tool-constrained）交互架构：不同于通用浏览器自动化，该组件要求应用预定义精确的智能体（Agent）动作。工具所有权归属于应用端，由 UI 负责最终的可见状态变更。
原生 React 绑定与控制器：提供封装好的 React Controller 和可选的 Launcher Widget。支持跨多个屏幕共享控制器实例，实现复杂业务流（如多步骤表单、共享状态棋类游戏）的语音控制。
可视化确认机制（Ghost Cursor）：内置「幽灵光标」功能，为语音触发的 UI 操作提供视觉反馈与二次确认逻辑，降低多模态交互中的指令误判风险。
明确的功能分层定界：该组件定位于 UI 渲染层，与底层传输协议（Raw Realtime）和高层编排框架（openai-agents-js）互补。它不负责底层的自定义音频处理，也不涉及复杂的智能体交接（Handoff）或 MCP（Model Context Protocol）流程。
实验性功能集成：在 Demo 示例中集成了基于运行时的可选「唤醒词（Wake-word）」检测实验功能。

https://github.com/openai/realtime-voice-component/

(@OpenAIDevs)

2、HeyGen 开源 HyperFrames：原生支持 AI 智能体的 HTML-to-MP4 视频渲染框架

视频生成平台 HeyGen 开源了 HyperFrames，这是一款专为 AI 智能体（Agent）设计的端到端视频工作空间框架。该工具通过将 HTML/CSS/GSAP 动画转化为逐帧确定的 MP4 视频，允许开发者在 Codex、Claude Code、Cursor 等编码环境中通过自然语言指令完成视频的编写、编辑与渲染。

智能体原生（Agent-native）交互模式：不同于基于 React 的传统方案（如 Remotion），HyperFrames 采用原生 HTML 结构作为输入。由于大模型对 HTML 的生成能力远超复杂的组件体系，智能体可通过 /hyperframes 等斜杠命令直接操作 DOM 属性和动画逻辑。
确定性渲染（Deterministic Rendering）架构：集成无头 Chrome 与 FFmpeg，采用帧缓冲（Frame buffering）和 image2pipe 流式传输技术。该架构确保在相同的 HTML/数据输入下，输出的视频帧序列完全一致，适用于自动化生产管线。
框架适配器模式（Frame Adapter）：支持 GSAP、Lottie、CSS 和 Three.js 等多种动画运行时。通过「库时钟（Library-clock）」同步技术，实现了帧精确（Frame-accurate）的搜索与预览，解决了渲染时动画与墙钟时间不同步的问题。

https://github.com/heygen-com/hyperframes/

(@HeyGen@X)

3、开源 AI-HR 招聘平台：集成 TEN Framework 与 FastAPI，实现 < 1s 延迟实时语音面试

AI-HR 发布了基于 Python FastAPI 与 TEN Framework 的端到端智能招聘自动化系统。该平台通过 LLM 与实时通信（RTC）技术的深度解耦与重组，实现了从简历语义解析到「无人值守」实时语音面试的全流程闭环，将面试交互延迟降低至秒级。

< 1s 拟人化交互延迟：通过 TEN Framework 优化 RTC 链路，集成 VAD（静音检测）与语义中断技术，解决了传统 ASR-LLM-TTS 架构中 5-10s 的高延迟痛点。
基于语义的深度技术追问：不再依赖关键词匹配，利用 GPT-4o 或 DeepSeek 等模型对简历进行多维度打分，并根据应聘者回答实时生成针对性的技术细节核实问题。
异构环境下的分布式架构：后端 API 采用 FastAPI，实时交互体 ten_agent 运行于 Linux/WSL 环境，支持 tman 插件管理系统，实现了业务逻辑与实时音视频流处理的解耦。
全自动招聘 Pipeline：系统自动同步 Boss 直聘等平台职位状态，根据 AI 评估得分触发简历状态变更、发起面试邀约及生成面试评估报告。
企业级稳定性设计：内置熔断器（Circuit Breaker）与幂等处理机制，通过 Orchestrator（面试编排器）管理会话状态，支持大规模并发场景下的请求监控。

https://github.com/shenlan-ai/AI-HR

( @GitHub)

4、商汤开源 SenseNova U1：基于 NEO-unify 原生架构实现图文理解生成统一

连续性图文创作输出示例

商汤发布并开源日日新 SenseNova U1 系列原生理解生成统一模型。该模型基于自研 NEO-unify 架构，在单一模型架构内实现了多模态理解、推理与生成的深度融合，其轻量化版本在 8B 规模下实现了比肩大型闭源商用模型的生成质量与推理效率。

NEO-unify 原生统一架构：彻底摒弃主流的「视觉编码器（VE）+ 变分自编码器（VAE）+ 语言模型」拼接范式，通过构建统一表征空间，将视觉与语言信息融入每一层计算，消除了跨模态转换的信息损耗。
首创连续性图文交错创作：支持在单次模型调用中输出高一致性的图文内容。在多步骤任务（如菜谱、流程图）中，图像间的风格与语义逻辑可保持像素级的视觉保真度与上下文对齐。
高性能轻量化配置：开源 SenseNova-U1-8B-MoT（稠密骨干）与 SenseNova-U1-A3B-MoT（MoE 架构）两个版本。实测在 OneIG、BizGenEval 等图像生成与视觉推理基准中达到同量级 SOTA，生成延迟显著低于同类闭源模型。
物理空间与具身智能适配：针对物理世界布局与精细关系进行建模，旨在实现在单一模型闭环内完成从环境感知、逻辑推演到任务执行的具身智能大脑功能。

GitHub:

https://github.com/OpenSenseNova/SenseNova-U1

Hugging Face:

https://huggingface.co/collections/sensenova/sensenova-u1

（@商汤科技）

02 有亮点的产品

1、Jovida 完成千万级 Pre-Seed 轮融资：上线主动式生活智能体，支持 WhatsApp 触达与跨模态视觉解析

由前字节跳动产品合伙人创立的 AI 公司 Jovida 宣布完成数千万元人民币 Pre-Seed 轮融资（锦秋基金领投，百度风投跟投）。该公司正式发布 iOS 端主动式生活智能体，产品放弃传统对话框交互，采用「后台感知+IM 主动触达」的「人类闭环（Human Loop）」范式，通过跨应用上下文调用与垂直技能生态（Agent Square），接管泛健康等长线个人目标的拆解与执行。

交互去 APP 化与交互式卡片（Interactive Nudges）：彻底抛弃长文本对话流。系统通过原生聊天集成（Native Chat Integration）接入 WhatsApp 并结合 iOS 离线 Push 机制，将任务转化为明确的行动卡片。用户无需唤醒 APP 即可在 IM 界面内完成状态打卡、跳过或重新调度。
多维上下文动态触发（Live Context）：放弃静态定时提醒。智能体通过端云一体架构（Edge-Cloud Architecture）调用手机端日历、系统时钟与地理位置权限。算法结合实时物理环境计算触发时机（例如：检测到用户处于餐厅位置附近时，自动推送基于该位置的低碳水餐品选项）。
封装垂直场景的跨模态视觉解析：在细分目标下提供深度的图像处理功能。例如「皮肤扫描（Face Scan）」生成成分冲突预警与使用建议；「餐盘分析（Meal Photo Analysis）」通过照片即时估算大卡与营养素；同时支持实体餐厅菜单的 OCR 扫描与健康项自动过滤。
动态挂载的 UGC 技能网络（Agent Square）：系统内置官方与社区用户构建的垂直技能模块（涵盖减脂、睡眠优化、英语学习等）。当侦测到用户诉求变化时，主智能体会自动检索、拉取并静默安装匹配的垂类技能组件（Self-Evolving），接管对应的底层执行逻辑。
结构化持久记忆（Long-Term Memory）：摒弃单向 Markdown 文本日志。系统将用户的跨平台履约率、体征数据变化（如 Apple Health 睡眠评分）提炼为结构化字段。智能体依赖该状态库而非短期对话上下文，动态平滑后续任务的执行难度。

发布计划 iOS 客户端现已在 App Store 上线；Agent Square 已开放皮肤管理、减脂等数十款垂类技能模块供一键激活。

https://jovida.ai/agents

( @Founder Park)

2、Tin Can 发布儿童 VoIP 座机：硬件摒弃屏幕与电池，建立订阅制语音闭环

初创公司 Tin Can 推出一款针对儿童市场的 VoIP 语音终端。该产品通过彻底移除屏幕、摄像头及短信功能，并强制采用插电使用的非移动设计，配合家长端 App 的白名单过滤，试图在智能手机之外建立一套受控的、去沉迷化的儿童社交通讯系统。

硬件参数与交互设计：采用基于 IP 的语音传输（VoIP）技术，通过 Wi-Fi 联网；机身无电池，由 USB-C 接口供电以固定使用位置；配备 4 个可自定义的 Emoji 快捷拨号物理按键及语音信箱提醒灯。
白名单云端管控系统：所有接听与拨出号码均需通过家长端 App 授权，自动拦截非白名单骚扰电话；支持设置「静音时段」（保留紧急呼叫）；支持「一号多机」模式，适配离异家庭等跨空间使用场景。
定价与商业模式：硬件售价 100 美元；Tin Can 用户间通过 5 位短号通话免费，拨打普通手机/座机需支付 9.99 美元/月的「Party Line」订阅费。
融资与交付表现：已完成累计 1550 万美元融资（Greylock Partners 领投种子轮）；目前由于产能受限及预购量激增，新订单交货期已排至 2026 年 6 月。
技术局限与冗余问题：初代硬件存在 1 秒左右的 VoIP 通话延迟及回声；USB-C 供电接口物理连接稳定性不足；2025 年曾因 100 倍流量峰值导致服务器宕机。

https://tincan.kids/

( @APPSO)

03 有态度的观点

1、Replit CEO：AI 已经能写代码，但它替代不了系统思维

据《商业内幕》报道，AI 编程平台公司 Replit CEO Amjad Masad 昨日在《20VC》播客节目中表示，年轻人不应仅仅因为薪资前景而选择修读计算机科学专业。

如果你对它没有那种如飞蛾扑火般的吸引力，就不要因为别人告诉你能在 Google 赚大钱而去读计算机科学，这「相当愚蠢」。

Masad 指出，21 世纪初入行者大多出于真实热情，此后该专业逐渐被「炒热」，各大高校计算机系急速扩张，核心原因只有一个 —— 容易赚钱。而 AI 崛起后，这一逻辑已不再成立。

他同时强调，对真正感兴趣的人而言，机器学习与 AI 方向依然大有可为；数据结构与算法等基础知识不会因 AI 进化而过时，行业始终需要理解底层原理的人才。

这一观点在科技界并非孤例。「AI 教父」Geoffrey Hinton 去年也表示，计算机科学是「学习系统思维的绝佳专业」，AI 替代部分编程任务并不意味着相关学位失去价值。

Masad 于 2016 年联合创办 Replit，该公司已从在线集成编程环境转型为以 AI 智能体为核心的应用构建平台，与微软旗下 GitHub、Cursor 及 Lovable 等 vibe coding 工具展开竞争。