DeepMind 打机已经劲过人类，57款游戏超越

时间：2020-12-17 16:52:08

Atari(雅达利) 游戏作为经典的游戏始祖，玩家们的乐趣在于如何去获得最高的分数，打破记录。而近期，人工智能公司 DeepMind 在官方博客宣布了 AI 挑战 Atari 游戏的新进展，称在57款 Atari 游戏中实现全面超越人类，是该领域里的第一次。

在 DeepMind 最新发布的预印本论文和博客中称，他们构建了一个名为 Agent57 的智能体，通过在街机学习环境(Arcade Learning Environment，ALE)中学习，从而在 57 个 Atari 游戏中表现超越人类。如果 Agent57 智能体有如此优秀，那么将会为构建更加强大的 AI 决策模型奠定基础，可以进行自动推理环境，实现自动化提升生产力。

DeepMind 为什么选择用 Atari 游戏来进行测试呢?其实早在2012年，DeepMind 开发出 Deep Q-Network(DQN)，同样是用于挑战 Atari 57款游戏。但当时不能克服四款比较难的游戏：Montezuma’s Revenge、Pitfall、Solaris 和 Skiing。

这一次同样採用游戏的一部分原因可能是想弥补缺憾，另一部分原因是 Atari 游戏的一些特点。据悉 Atari 有3个特点，第一是游戏足够多样性，可以用来评估智能体的泛化性能;第二是可以模拟真实环境中的情况;第三是因为 Atari 游戏由独立的组织构建，可以有效避免实验偏见。

除此之外，DeepMind 在博客上公布了 Agent57 的框架，採用强化学习算法，在多台电脑上运行。这可以让 AI 赋能的智能体选择最大化奖赏去执行指令。 OpenAI 的 OpenAI Five 和 DeepMind 的 AlphaStar RL 智能体分别打败过 99.4% 的 Dota 2 玩家和 99.8% 的星际2玩家。

Agent57 的学习过程是通过把众多 actor 信息汇总到可以採样的一个中央存储库中来进行学习。 DeepMind 团队为了更好的的学习，採用两种不同的 AI 模型来近似每个状态动作的价值(state-action value)，价值能够决定智能体的执行指令好坏程度，从而提供评估标準，让智能体适应性选择使用哪种策略。

这个全新的框架模型有着两个优势，一是有着策略优先级选择，让 Agent57 去分配更多的网络容量;二是在评估时採用自然的方式来选择最佳策略。

Agent57 在与 MuZero、R2D2 和 NGU 等领先算法的比较中，总体上限更高。在训练 50亿帧后就可以在 51种游戏上超越人类，而在训练 780亿帧后可以在 Skiing 游戏上超越人类。

虽然 Agent57 已经在51种游戏上超越了人类，但是 DeepMind 团队并不满于此，向我们透漏了下一步计划「Agent57 最终在所有基準测试集最困难的游戏中都超过了人类水平。但这并不意味着 Atari 游戏研究的结束，我们不仅要关注数据效率，也需要关注总体表现……未来的主要改进可能会面向 Agent57 在探索、规划和信度分配上。」期待在未来，AI 能够带来更多生活上的便捷。