无屏幕无AI,儿童VoIP语音硬件Tin Can售出数十万台,累计融资1550万美元;OpenAI开源语音控制交互组件丨日报
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@koki、@鲍勃
01 有话题的技术
1、OpenAI 开源 realtime-voice-component:使用语音控制交互界面
OpenAI 发布了基于 OpenAI Realtime API 构建的开源参考实现 realtime-voice-component。该库专为 React 环境设计,旨在为具有明确预定义工具的应用提供低延迟、状态可感知的语音交互界面。
工具受限型(Tool-constrained)交互架构:不同于通用浏览器自动化,该组件要求应用预定义精确的智能体(Agent)动作。工具所有权归属于应用端,由 UI 负责最终的可见状态变更。
原生 React 绑定与控制器:提供封装好的 React Controller 和可选的 Launcher Widget。支持跨多个屏幕共享控制器实例,实现复杂业务流(如多步骤表单、共享状态棋类游戏)的语音控制。
可视化确认机制(Ghost Cursor):内置「幽灵光标」功能,为语音触发的 UI 操作提供视觉反馈与二次确认逻辑,降低多模态交互中的指令误判风险。
明确的功能分层定界:该组件定位于 UI 渲染层,与底层传输协议(Raw Realtime)和高层编排框架(openai-agents-js)互补。它不负责底层的自定义音频处理,也不涉及复杂的智能体交接(Handoff)或 MCP(Model Context Protocol)流程。
实验性功能集成:在 Demo 示例中集成了基于运行时的可选「唤醒词(Wake-word)」检测实验功能。
https://github.com/openai/realtime-voice-component/
(@OpenAIDevs)
2、HeyGen 开源 HyperFrames:原生支持 AI 智能体的 HTML-to-MP4 视频渲染框架
视频生成平台 HeyGen 开源了 HyperFrames,这是一款专为 AI 智能体(Agent)设计的端到端视频工作空间框架。该工具通过将 HTML/CSS/GSAP 动画转化为逐帧确定的 MP4 视频,允许开发者在 Codex、Claude Code、Cursor 等编码环境中通过自然语言指令完成视频的编写、编辑与渲染。
智能体原生(Agent-native)交互模式:不同于基于 React 的传统方案(如 Remotion),HyperFrames 采用原生 HTML 结构作为输入。由于大模型对 HTML 的生成能力远超复杂的组件体系,智能体可通过 /hyperframes 等斜杠命令直接操作 DOM 属性和动画逻辑。
确定性渲染(Deterministic Rendering)架构:集成无头 Chrome 与 FFmpeg,采用帧缓冲(Frame buffering)和 image2pipe 流式传输技术。该架构确保在相同的 HTML/数据输入下,输出的视频帧序列完全一致,适用于自动化生产管线。
框架适配器模式(Frame Adapter):支持 GSAP、Lottie、CSS 和 Three.js 等多种动画运行时。通过「库时钟(Library-clock)」同步技术,实现了帧精确(Frame-accurate)的搜索与预览,解决了渲染时动画与墙钟时间不同步的问题。
https://github.com/heygen-com/hyperframes/
(@HeyGen@X)
3、开源 AI-HR 招聘平台:集成 TEN Framework 与 FastAPI,实现 < 1s 延迟实时语音面试
AI-HR 发布了基于 Python FastAPI 与 TEN Framework 的端到端智能招聘自动化系统。该平台通过 LLM 与实时通信(RTC)技术的深度解耦与重组,实现了从简历语义解析到「无人值守」实时语音面试的全流程闭环,将面试交互延迟降低至秒级。
< 1s 拟人化交互延迟:通过 TEN Framework 优化 RTC 链路,集成 VAD(静音检测)与语义中断技术,解决了传统 ASR-LLM-TTS 架构中 5-10s 的高延迟痛点。
基于语义的深度技术追问:不再依赖关键词匹配,利用 GPT-4o 或 DeepSeek 等模型对简历进行多维度打分,并根据应聘者回答实时生成针对性的技术细节核实问题。
异构环境下的分布式架构:后端 API 采用 FastAPI,实时交互体 ten_agent 运行于 Linux/WSL 环境,支持 tman 插件管理系统,实现了业务逻辑与实时音视频流处理的解耦。
全自动招聘 Pipeline:系统自动同步 Boss 直聘等平台职位状态,根据 AI 评估得分触发简历状态变更、发起面试邀约及生成面试评估报告。
企业级稳定性设计:内置熔断器 (Circuit Breaker) 与幂等处理机制,通过 Orchestrator(面试编排器)管理会话状态,支持大规模并发场景下的请求监控。
https://github.com/shenlan-ai/AI-HR
( @GitHub)
4、商汤开源 SenseNova U1:基于 NEO-unify 原生架构实现图文理解生成统一
连续性图文创作输出示例
商汤发布并开源日日新 SenseNova U1 系列原生理解生成统一模型。该模型基于自研 NEO-unify 架构,在单一模型架构内实现了多模态理解、推理与生成的深度融合,其轻量化版本在 8B 规模下实现了比肩大型闭源商用模型的生成质量与推理效率。
NEO-unify 原生统一架构:彻底摒弃主流的「视觉编码器(VE)+ 变分自编码器(VAE)+ 语言模型」拼接范式,通过构建统一表征空间,将视觉与语言信息融入每一层计算,消除了跨模态转换的信息损耗。
首创连续性图文交错创作:支持在单次模型调用中输出高一致性的图文内容。在多步骤任务(如菜谱、流程图)中,图像间的风格与语义逻辑可保持像素级的视觉保真度与上下文对齐。
高性能轻量化配置:开源 SenseNova-U1-8B-MoT(稠密骨干)与 SenseNova-U1-A3B-MoT(MoE 架构)两个版本。实测在 OneIG、BizGenEval 等图像生成与视觉推理基准中达到同量级 SOTA,生成延迟显著低于同类闭源模型。
物理空间与具身智能适配:针对物理世界布局与精细关系进行建模,旨在实现在单一模型闭环内完成从环境感知、逻辑推演到任务执行的具身智能大脑功能。
GitHub:
https://github.com/OpenSenseNova/SenseNova-U1
Hugging Face:
https://huggingface.co/collections/sensenova/sensenova-u1
(@商汤科技)
02 有亮点的产品
1、Jovida 完成千万级 Pre-Seed 轮融资:上线主动式生活智能体,支持 WhatsApp 触达与跨模态视觉解析
由前字节跳动产品合伙人创立的 AI 公司 Jovida 宣布完成数千万元人民币 Pre-Seed 轮融资(锦秋基金领投,百度风投跟投)。该公司正式发布 iOS 端主动式生活智能体,产品放弃传统对话框交互,采用「后台感知+IM 主动触达」的「人类闭环(Human Loop)」范式,通过跨应用上下文调用与垂直技能生态(Agent Square),接管泛健康等长线个人目标的拆解与执行。
交互去 APP 化与交互式卡片(Interactive Nudges):彻底抛弃长文本对话流。系统通过原生聊天集成(Native Chat Integration)接入 WhatsApp 并结合 iOS 离线 Push 机制,将任务转化为明确的行动卡片。用户无需唤醒 APP 即可在 IM 界面内完成状态打卡、跳过或重新调度。
多维上下文动态触发(Live Context):放弃静态定时提醒。智能体通过端云一体架构(Edge-Cloud Architecture)调用手机端日历、系统时钟与地理位置权限。算法结合实时物理环境计算触发时机(例如:检测到用户处于餐厅位置附近时,自动推送基于该位置的低碳水餐品选项)。
封装垂直场景的跨模态视觉解析:在细分目标下提供深度的图像处理功能。例如「皮肤扫描(Face Scan)」生成成分冲突预警与使用建议;「餐盘分析(Meal Photo Analysis)」通过照片即时估算大卡与营养素;同时支持实体餐厅菜单的 OCR 扫描与健康项自动过滤。
动态挂载的 UGC 技能网络(Agent Square):系统内置官方与社区用户构建的垂直技能模块(涵盖减脂、睡眠优化、英语学习等)。当侦测到用户诉求变化时,主智能体会自动检索、拉取并静默安装匹配的垂类技能组件(Self-Evolving),接管对应的底层执行逻辑。
结构化持久记忆(Long-Term Memory):摒弃单向 Markdown 文本日志。系统将用户的跨平台履约率、体征数据变化(如 Apple Health 睡眠评分)提炼为结构化字段。智能体依赖该状态库而非短期对话上下文,动态平滑后续任务的执行难度。
发布计划 iOS 客户端现已在 App Store 上线;Agent Square 已开放皮肤管理、减脂等数十款垂类技能模块供一键激活。
https://jovida.ai/agents
( @Founder Park)
2、Tin Can 发布儿童 VoIP 座机:硬件摒弃屏幕与电池,建立订阅制语音闭环
初创公司 Tin Can 推出一款针对儿童市场的 VoIP 语音终端。该产品通过彻底移除屏幕、摄像头及短信功能,并强制采用插电使用的非移动设计,配合家长端 App 的白名单过滤,试图在智能手机之外建立一套受控的、去沉迷化的儿童社交通讯系统。
硬件参数与交互设计:采用基于 IP 的语音传输(VoIP)技术,通过 Wi-Fi 联网;机身无电池,由 USB-C 接口供电以固定使用位置;配备 4 个可自定义的 Emoji 快捷拨号物理按键及语音信箱提醒灯。
白名单云端管控系统:所有接听与拨出号码均需通过家长端 App 授权,自动拦截非白名单骚扰电话;支持设置「静音时段」(保留紧急呼叫);支持「一号多机」模式,适配离异家庭等跨空间使用场景。
定价与商业模式:硬件售价 100 美元;Tin Can 用户间通过 5 位短号通话免费,拨打普通手机/座机需支付 9.99 美元/月的「Party Line」订阅费。
融资与交付表现:已完成累计 1550 万美元融资(Greylock Partners 领投种子轮);目前由于产能受限及预购量激增,新订单交货期已排至 2026 年 6 月。
技术局限与冗余问题:初代硬件存在 1 秒左右的 VoIP 通话延迟及回声;USB-C 供电接口物理连接稳定性不足;2025 年曾因 100 倍流量峰值导致服务器宕机。
https://tincan.kids/
( @APPSO)
03 有态度的观点
1、Replit CEO:AI 已经能写代码,但它替代不了系统思维
据《商业内幕》报道,AI 编程平台公司 Replit CEO Amjad Masad 昨日在《20VC》播客节目中表示,年轻人不应仅仅因为薪资前景而选择修读计算机科学专业。
如果你对它没有那种如飞蛾扑火般的吸引力,就不要因为别人告诉你能在 Google 赚大钱而去读计算机科学,这「相当愚蠢」。
Masad 指出,21 世纪初入行者大多出于真实热情,此后该专业逐渐被「炒热」,各大高校计算机系急速扩张,核心原因只有一个 —— 容易赚钱。而 AI 崛起后,这一逻辑已不再成立。
他同时强调,对真正感兴趣的人而言,机器学习与 AI 方向依然大有可为;数据结构与算法等基础知识不会因 AI 进化而过时,行业始终需要理解底层原理的人才。
这一观点在科技界并非孤例。「AI 教父」Geoffrey Hinton 去年也表示,计算机科学是「学习系统思维的绝佳专业」,AI 替代部分编程任务并不意味着相关学位失去价值。
Masad 于 2016 年联合创办 Replit,该公司已从在线集成编程环境转型为以 AI 智能体为核心的应用构建平台,与微软旗下 GitHub、Cursor 及 Lovable 等 vibe coding 工具展开竞争。
( @APPSO)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
作者提示: 个人观点,仅供参考