据外媒报道,Meta 公司证实,用户用 Ray-Ban Meta 智能眼镜拍摄的照片和视频可能会被用于训练其 AI 模型。Meta 政策传播经理 Emil Vazquez 在一封电子邮件中表示:「在多模态 AI 可用的地区(目前为美国和加拿大),与 Meta AI 共享的图像和视频可能会被用于改进我们的 AI 模型,这符合我们的隐私政策。」 此前,Meta 一位发言人澄清称,只要用户不将照片和视频提交给 AI,这些数据就不会被用于训练 Meta 的 AI 模型。然而,一旦用户要求 Meta AI 分析这些照片,它们就会受到不同的政策约束。换句话说,唯一避免这种情况的方法是不使用 Meta 的多模态 AI 功能。这一做法引发了人们的担忧,因为 Ray-Ban Meta 用户可能并不了解他们正在向 Meta 提供大量图像用于训练其 AI 模型,这些图像可能包含他们的家庭内部、亲人或个人文件等信息。(@IT 之家)
4、英伟达推出 ACE 虚幻引擎 5 插件,打造逼真数字人
10 月 7 日,英伟达 ACE(Avatar Cloud Engine)是一套可帮助开发者利用生成式 AI 创建栩栩如生的虚拟数字人物的技术。在 ACE 的加持下,普通的非玩家角色(NPC)可以摇身一变,成为能够发起对话或引导玩家找到新任务的动态交互式角色。在 2024 年西雅图虚幻节上,英伟达发布了适用于 Nvidia ACE 的新虚幻引擎 5 设备端插件,可以让开发者更轻松地在 Windows PC 上构建和部署 AI 驱动的 MetaHuman 角色。 值得一提的是,ACE 技术不仅能生成逼真的面部动画,还具备强大的上下文理解能力。借助检索增强生成(RAG)技术,数字人能够根据对话历史和上下文做出更自然、更符合逻辑的反应。此次与虚幻引擎 5 的集成,使得开发者能够更加便捷地将 ACE 技术应用于游戏开发中。英伟达还提供了示例项目,为开发者提供了一个清晰的指引,帮助他们快速上手。(@IT 之家)
5、很好也很贵?OpenAI Realtime API 一手体验和 Voice AI 的未来 |播客《编码人声》
OpenAI Realtime API 发布了,你准备好了么? Realtime API 让开发者可以构建近乎实时的「语音到语音」的体验,无需将多个模型拼接在一起进行转录、推理和文本到语音的转换,实现更流畅的打断体验,还可以无缝切换多种语言。 本期节目请来了第一批接入并体验 OpenAI Realtime API 的开发者,为你解析背后的技术和开发者的新机会。 两位嘉宾分别是在实时多模态 AI 领域深耕多年的专家——开源实时多模态 AI 框架 TEN Framework 的联合发起人 Plutoless ,以及拾象科技的 AI Research Lead 钟凯祺 Cage。 节目深度分析了 OpenAI Realtime API 的优势与挑战,讨论了实时多模态 AI 如何实现语音进、语音出的端到端交互,大幅降低延迟,提升用户体验,使得与 AI 的对话更加自然流畅。也谈到了目前存在的高昂成本和技术集成的复杂性,以及这些问题对开发者意味着什么。 此外,嘉宾们还深入探讨了实时多模态 AI 的定义,什么才是真正的实时多模态?他们分享了自己在实践中遇到的挑战和最佳实践,探讨了在 OpenAI Realtime API 的背景下,开发者如何抓住新的机遇。他们也展望了 AI 在未来实时互联网中的角色,讨论了 AI 安全、人与 AI 的协作、多模态交互等话题。(@编码人声)
02 有态度的观点
1、李飞飞:我不知道什么是 AGI
在周四的 Credo AI 负责任的人工智能领导峰会上,世界著名研究员常被称为「人工智能教母」的李飞飞表示,她也不知道什么是 AGI。在其他时刻,李飞飞讨论了她在现代人工智能诞生中的角色,社会应该如何保护自己免受先进人工智能模型的影响,以及她为什么认为她的新独角兽初创公司 World Labs 将改变一切。 但当被问及她对「人工智能奇点」的看法时,李和我们其他人一样感到困惑。「我来自人工智能学术界,接受过更严格和基于证据的方法的教育,所以我并不太清楚这些词的意思,」李在旧金山一个挤满人的房间里说,旁边是一扇俯瞰金门大桥的大窗户。「坦率地说,我甚至不知道 AGI 是什么意思。人们说你见到它就知道,我想我还没有见过。事实上,我并不花太多时间思考这些词,因为我认为还有很多更重要的事情要做……」(@Z Potentials)