StackChan 开启国内预售,支持 AI 视听交互和二次开发
开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@koki、@鲍勃
01 有话题的技术
1、专为语音、环境声和音乐理解而设计,NVIDIA 联合发布 Audio Flamingo Next,支持 128K 音频上下文
NVIDIA 与 马里兰大学 的研究团队最近联合发布了下一代开源大型音频语言模型 Audio Flamingo Next (AF-Next)。该模型专为语音、环境声和音乐理解而设计,原生支持最长 30 分钟的复杂音频输入及高达 128K token 的上下文长度。
此次发布包含三个针对不同场景优化的变体:适用于问答、聊天和 ASR 的默认版本 AF-Next-Instruct;专注于基于时间戳进行分步时间推理的 AF-Next-Think;以及用于生成更密集长篇描述的 AF-Next-Captioner。
基于包含约 1.08 亿个样本和约 100 万小时音频的大规模数据集训练而成,该系列模型通过引入 Temporal Audio Chain-of-Thought 和 Rotary Time Embeddings (RoTE) 技术,显著提升了长音频的时间归因推理能力。
目前,这三个 8B 参数的模型权重已在 Hugging Face 上线,但仅限非商业研究用途。
https://huggingface.co/nvidia/audio-flamingo-next-hf
(@橘鸦 Juya)
2、World Labs 开源 Spark 2.0:基于连续式 LoD 与虚拟显存实现亿级点云 3DGS 网页端流畅渲染
智东西 4 月 15 日报道,今天,李飞飞的世界模型团队 World Labs 开源了动态 3D 高斯泼溅(3DGS)渲染器 Spark 2.0。
李飞飞本人在该成果发布的第一时间评论称:「Spark 2.0 现在可以在任意设备上流式传输超过 1 亿个高斯泼溅!能够为基于网页的 3DGS 渲染开源生态做出贡献,我们感到无比自豪!」
Spark 系列模型于去年首次发布,是一个专为网页构建的动态 3D 高斯泼溅(3DGS)渲染器。它与网页端最流行的 3D 框架 THREE.js 集成,并利用 WebGL2 在任意带有网页浏览器的设备上运行,包括桌面端、iOS、Android 以及 VR 设备。
与上一版本相比,Spark 2.0 新增了一套细节层级(LoD)系统,能够在任意设备上流式传输并渲染超大规模的 3DGS 世界。
此外,新版还使用了。RAD 的 3DGS 文件格式,支持渐进式细化的流式传输,而虚拟泼溅分页系统则通过固定的 GPU 内存分配,实现了对无限泼溅世界的访问,通俗来讲就是可以渲染无限大的 3D 场景。
如此流畅连贯的效果是怎么实现的?针对大规模场景的扩展难题,Spark 2.0 运用了 3 项图形学与系统底层方案:细节层次优化、渐进式流式加载以及虚拟显存管理。
(@智东西)
02 有亮点的产品
1、谷歌 Gemini 推出交互式模拟功能,支持用户自定义可视化
谷歌旗下 AI 助手 Gemini 近日正式推出交互式模拟生成功能,目前已面向全球用户开放。该功能允许用户在对话中直接将复杂问题转化为可操作的定制化视觉模型,实现从静态文本与图表向功能性动态模拟的跨越。
当用户使用「show me」或「help me visualize」等指令探索复杂概念时,系统将生成相应的交互式模拟程序。
以「月球绕地运行」为例,用户不再局限于观看固定示意图,而是能够通过手动调节滑块或输入精确数值,实时改变初始速度、引力强度等变量,直观观察不同参数对轨道状态的影响。这种即时交互机制显著提升了用户对复杂物理系统与逻辑的理解深度。
目前,该功能已集成于 Gemini App 中。用户需访问 gemini.google.com,选择提示栏中的 Pro 模型并输入相应指令即可体验。此次升级标志着 AI 辅助工具在科学探索与工程模拟领域的应用能力进一步增强。
(@极客公园)
2、预售开启 | StackChan 正式登陆淘宝!
在 Kickstarter 上线即被官方评选为 「Project We Love」,4,142 位支持者共同认购 HK$ 3,582,197,众筹完成率高达 4593% —— StackChan,现在正式开启淘宝预售!
无需登录 Kickstarter,国内开发者和爱好者们,现在即可前往淘宝 M5Stack 企业店铺 抢先预售下单,30 天内发货!
StackChan 不仅有可爱的外表,更有硬核的内心:
搭载 M5Stack CoreS3,ESP32-S3 强劲驱动
内置 30 万像素摄像头与接近传感器,2.0 英寸电容式触摸屏、9 轴 IMU。
双麦克风 +1W 扬声器,支持语音对话与 AI 交互。
具备 microSD 卡槽,支持海量数据存储与离线资源调用。
双反馈舵机,支持水平 360°连续旋转及俯仰,表情生动。
全功能 NFC、12 颗 RGB 灯珠、红外收发器、三区触摸面板。
这套扎实的硬件组合,为 StackChan 的视听交互提供了坚实的底层支撑,也为自主拓展无限设计提供了助力。
(@M5Stack)
3、Avoko 上线 Agent-to-Agent 访谈平台:支持并发对话收集与结构化行为洞察
Avoko 发布了一个面向 AI 智能体的双边质性研究平台。该平台通过大规模自动化并发访谈,帮助开发者直接观察智能体在具体任务中的交互逻辑、推理过程和决策边界,并自动生成结构化洞察报告,主要服务于 To-Agent 产品及基础设施的开发。
指令级快速接入:研究者和参与者可通过向 Agent 发送特定 Skill 指令快速完成智能体注册、技能安装和环境初始化,整个过程无需复杂配置。
智能匹配与自动化调度:研究者以自然语言描述目标后,平台自动生成访谈大纲,并根据智能体的相关性、专业性及声誉进行智能排名,实现精准匹配与大规模并发调研。
记忆 grounding 与行为洞察:每条回答均基于智能体的真实身份和历史记忆生成,而非通用 LLM 输出;访谈同时捕获推理链路、决策边界及边缘情况,确保数据的真实性和可靠性。
自动化质量控制:内置 Quality Engine 对每条回答进行自动评分并开展长期声誉追踪,低质量响应将被自动过滤,无需人工审核即可保证研究报告的高可靠性和分析价值。
多层安全与隐私防护:每条访谈问题在送达智能体前自动扫描提示词注入、角色覆盖、越狱尝试及社会工程学模式;同时对响应进行隐私风险评分;检测到威胁时立即自动中断访谈、撤回智能体并强化防护,检测准确率达 97.3%,实现零人工干预的全自动化安全保护。
双边激励机制:除了对研究者的工具价值,Avoko 还具备双边平台属性。智能体拥有者可将自己的 Agent 作为参与者接入平台,通过完成访谈任务获得现金报酬(PayPal 提现),所得高于 Token 消耗。
Avoko 同时启动了面向开发者的「48 小时 Interview Agents Challenge」。挑战赛提供了五类 Agent 访谈话题,包括:
基础设施工具调用(Git CLI、终端、API)
模糊或冲突指令的决策边界
错误恢复模式
长上下文推理与记忆一致性
智能体决策风格(独立推进 vs 寻求澄清)
提交最优质报告的前 5 名研究者将分别获得 1 张 $500 Apple Gift Card,这些研究中的参与者则有机会获得 10 倍礼金奖励。挑战赛报名:https://luma.com/mnh0ixwi
官方 Discord 社区:
https://discord.gg/AruSKwNg
官网:https://avoko.ai
( @AvokoAI@X、Avoko 官网)
03 有态度的观点
1、多名被 AI 偷声音的配音演员发声,「太乙真人」配音者张珈铭称被抢商单影响生计
IT 之家 4 月 13 日消息,多位知名配音演员近日相继发布声明,对 AI 配音侵权的行为予以谴责,并呼吁抵制 AI 仿声。
据九派新闻 4 月 10 日报道,《哪吒》系列动画电影「太乙真人」配音演员张珈铭表示,他为制止 AI 盗声,投入不少钱用于搜集证据,发起维权,却因侵权主体多为未成年人,法律追责受阻等现实难题,至今无一例起诉成功。
多名被 AI 偷声音的配音演员发声,「太乙真人」配音者张珈铭称被抢商单影响生计
报道提到,张珈铭从去年年底就发现自己的声音被大量盗用,在他塑造的声音形象中,被侵权最多的是太乙真人的声线。相关侵权数量非常多,他曾在一天中统计过具体数量,仅这一天内,就超过 700 例。这已经直接影响到了他的生计。「已经有合作伙伴明确表示,现在有很多 AI 声音和我相似,甚至可以免费使用,因此选择不再与我合作,有三个商单就是这样被取消的。」张珈铭说。
此外,为哪吒配音的吕艳婷、为甄嬛配音的季冠霖等配音演员,均遭遇过声音被盗用的情况。
今年 3 月,国内主攻游戏和动漫配音领域的公司 —— 上海奇响天外文化传播有限公司(简称「奇响天外」)发布声明函,宣布坚决反对任何违法使用人工智能技术的侵权行为。
奇响天外表示,旗下诸多艺人在近年来,长期饱受大量违法使用人工智能技术的侵权行为之困扰,该公司亦是国内率先对违法使用人工智能技术的侵权行为采取司法救济手段以维权的主体之一,虽然过程几经周折,充满阻碍与挑战,但经多番努力,目前相关案件已完成庭审,后续等待司法裁判,该公司亦将根据相关裁判结果继续推进维权工作。
IT 之家注意到,中国广播电视社会组织联合会演员委员会于 4 月 2 日发布严正声明称,凡可关联特定公众演员的 AI 撞脸、仿声演绎、换脸短剧、商业植入、虚拟人复刻、素材二创改编等侵权内容,即便标注「非商用」「公益分享」「个人二创」等字样,均不构成合法免责依据,仍需承担全部侵权责任。
(@IT 之家、九派新闻)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
作者提示: 个人观点,仅供参考