AI 创业公司 Stability AI 发布了 Stable Video 3D,输入一个对象的静态照片生成该对象的 3D 模型。Stable Video 3D 有两个版本:SV3D_u 和 SV3D_p,其中 SV3D_u 输入单幅图像生成轨道视频,无需相机调节;SV3D_p 组合了单幅图像和轨道视图,允许沿着指定相机路径创建 3D 视频。Stable Video 3D 的商业使用需要付费,非商业使用可在 Hugging Face 上下载模型权重(9.37GB)。(@CSDN)
7、谷歌推出多模态 VLOGGER AI:让静态肖像图动起来“说话”
谷歌近日在 GitHub 页面发布博文,介绍了 VLOGGER AI 模型,用户只需要输入一张肖像照片和一段音频内容,该模型可以让这些人物“动起来”,富有面部表情地朗读音频内容。VLOGGER AI 是一种适用于虚拟肖像的多模态 Diffusion 模型,使用 MENTOR 数据库进行训练,该数据库中包含超过 80 万名人物肖像,以及累计超过 2200 小时的影片,从而让 VLOGGER 生成不同种族、不同年龄、不同穿着、不同姿势的肖像影片。 研究人员表示:“和此前的多模态相比,VLOGGER 的优势在于不需要对每个人进行训练,不依赖于人脸检测和裁剪,可以生成完整的图像(而不仅仅是人脸或嘴唇),并且考虑了广泛的场景(例如可见躯干或不同的主体身份),这些对于正确合成交流的人类至关重要”。(@CSDN)
02 有态度的观点
1、AI 科学家李飞飞:不管那些技术词汇多陌生,我也恳求你在 AI 时代中有一个角色
英伟达 GTC 大会上,AI 科学家李飞飞对话英伟达首席科学家 Bill Dally,如果说黄仁勋与 OpenAI 首席科学家 Illya 进行的是一场对技术未来的漫谈,那今年这场炉边谈话就是李飞飞对人类未来的呼吁。
AI 是一个工具。它是一个需要一些数学和计算来实现的工具。但归根结底,人类不仅是工具的创造者,我们也是如何使用工具的决策者;我们是工具应用的创造者,我们也是工具的用户;我们是决定如何管理工具以及管理想要使用工具的人的选民。所以在参与 AI 方面有很多公民的可能性。我特别希望年轻人,那些热爱艺术、热爱社区、热爱法律、热爱医学、热爱化学的人,无论你的兴趣是什么,都能以负责任的态度拥抱这项技术,你们实际上可以为让它变得更好、更好地使用它而有所作为。这真的是我对每个人的恳求:你们在 AI 发展中有一个角色,请加入我们,让它变得更好。
在整场对谈,李飞飞都用一种很不同的思考 AI 的视角,来给这个 AI 时代失语的普通人一个声音。(@腾讯科技) 写在最后: 我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。 对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。