DeepMind推出全新交互式人工智能模型Genie:让虚拟世界触手可及
谷歌DeepMind团队成功研发出一种名为Genie的基础世界模型,该模型能够根据合成图像、照片或草图生成具有动作控制能力的2D虚拟世界。虽然当前生成的“游戏”画质较低且距离实时可玩仍有较长的距离,但这一成果标志着生成式人工智能进入了一个新时代,有望成为未来通才AI智能体的催化剂。
DeepMind团队在2月26日的声明中表示,Genie是一种基于互联网视频训练的世界模型,它可以根据输入图像、照片或草图生成多种动作可控的2D虚拟世界。这一突破性的技术为实现与虚拟世界的互动提供了可能,用户只需提供一张图片,Genie便可构建一个新的互动环境。
值得一提的是,Genie的学习过程无需动作标签,这意味着它可以利用现有的互联网视频资源进行自监督学习。为了实现这一目标,DeepMind团队开发了一种可推断视频帧间动作的潜在动作模型,以及将原始视频帧转换为离散标记的视频分词器。这些技术的运用使得Genie可以在没有动作标签的情况下,从互联网视频中学习精细的控制。
为了更好地理解和使用Genie,DeepMind团队还推出了一款配套的工具,该工具允许用户通过简单的拖放操作将3D物体、纹理等元素添加到生成的虚拟世界中。同时,工具还可以帮助用户快速调整和优化虚拟世界的设置,从而实现更加逼真和流畅的游戏体验。
尽管目前Genie主要应用于2D平台类游戏和机器人领域的视频,但其通用性使其在未来可用于更广泛的场景。DeepMind团队表示,Genie的研发项目正朝着提高实时性能的方向发展,希望未来它能成为一个功能齐全且易于使用的工具。
此外,DeepMind团队还计划进一步拓展Genie的应用范围,包括增强现实、虚拟现实等领域。他们认为,随着技术的进步,Genie将在未来成为实现多模态交互的关键工具,有助于推动人工智能的发展。
总的来说,Genie的成功研发标志着生成式人工智能的一个重要里程碑,它将为未来的研究和应用带来巨大的潜力。然而,要实现实时可玩的功能,仍需克服一些技术难题,如提高渲染速度、减少内存占用等。DeepMind团队将继续努力,期待在未来看到Genie在各个领域的广泛应用。