DeepMind推出全新交互式人工智能模型Genie：让虚拟世界触手可及

27 2 月 2024

DeepMind推出全新交互式人工智能模型Genie：让虚拟世界触手可及

谷歌DeepMind团队成功研发出一种名为Genie的基础世界模型，该模型能够根据合成图像、照片或草图生成具有动作控制能力的2D虚拟世界。虽然当前生成的“游戏”画质较低且距离实时可玩仍有较长的距离，但这一成果标志着生成式人工智能进入了一个新时代，有望成为未来通才AI智能体的催化剂。

DeepMind团队在2月26日的声明中表示，Genie是一种基于互联网视频训练的世界模型，它可以根据输入图像、照片或草图生成多种动作可控的2D虚拟世界。这一突破性的技术为实现与虚拟世界的互动提供了可能，用户只需提供一张图片，Genie便可构建一个新的互动环境。

值得一提的是，Genie的学习过程无需动作标签，这意味着它可以利用现有的互联网视频资源进行自监督学习。为了实现这一目标，DeepMind团队开发了一种可推断视频帧间动作的潜在动作模型，以及将原始视频帧转换为离散标记的视频分词器。这些技术的运用使得Genie可以在没有动作标签的情况下，从互联网视频中学习精细的控制。

为了更好地理解和使用Genie，DeepMind团队还推出了一款配套的工具，该工具允许用户通过简单的拖放操作将3D物体、纹理等元素添加到生成的虚拟世界中。同时，工具还可以帮助用户快速调整和优化虚拟世界的设置，从而实现更加逼真和流畅的游戏体验。

尽管目前Genie主要应用于2D平台类游戏和机器人领域的视频，但其通用性使其在未来可用于更广泛的场景。DeepMind团队表示，Genie的研发项目正朝着提高实时性能的方向发展，希望未来它能成为一个功能齐全且易于使用的工具。

此外，DeepMind团队还计划进一步拓展Genie的应用范围，包括增强现实、虚拟现实等领域。他们认为，随着技术的进步，Genie将在未来成为实现多模态交互的关键工具，有助于推动人工智能的发展。

总的来说，Genie的成功研发标志着生成式人工智能的一个重要里程碑，它将为未来的研究和应用带来巨大的潜力。然而，要实现实时可玩的功能，仍需克服一些技术难题，如提高渲染速度、减少内存占用等。DeepMind团队将继续努力，期待在未来看到Genie在各个领域的广泛应用。

8点精要

8点精要

DeepMind推出全新交互式人工智能模型Genie：让虚拟世界触手可及

八点精要

发表回复取消回复

8点精要

8点精要

DeepMind推出全新交互式人工智能模型Genie：让虚拟世界触手可及

DeepMind推出全新交互式人工智能模型Genie：让虚拟世界触手可及

八点精要

发表回复 取消回复

发表回复取消回复