是不是说起「口袋妖怪」,你就不困了?「口袋妖怪」是「宝可梦」的非官方译名。从 1996 年至今,它可以被分为数个世代,成为很多玩家心中的经典之作。游戏画风简单,但是身为策略游戏,其中包含的角色、属性、战术、体系等让这个游戏入门容易精通难。如果训练 AI 来玩宝可梦,你觉得它的实力如何?推特用户 @computerender 用强化学习训练 AI 玩起了宝可梦。他也通过视频记录了这一过程,不仅生动地展示了训练过程,还详尽地介绍了其中的方法。
当你打开视频,就能观看两万场 AI 玩的《宝可梦・红》。一开始,AI 没有任何的知识和经验,只能够随机按下按钮。但在五年的模拟游戏时间里,它在经历中习得了更多能力。最终,AI 能够抓住宝可梦,进化它们,并击败了健身房的领导者。那么这是怎么做到的呢?最基础的目标是让 AI 去探索地图。作者所使用的方法是在 AI 到达新位置时给予奖励。
作者记录 AI 在玩游戏时看到的每个屏幕并将当前屏幕与记录中的所有屏幕进行比较,看看是否有接近的匹配。如果没有找到匹配,这意味着 AI 发现了一些新东西。在此情况下,作者将给它一个奖励,并将新屏幕添加到记录中。独特屏幕带来的奖励可以鼓励它继续寻找游戏的新部分。
经过几次迭代之后,AI 能更快的走出初始房间。但在这过程中,作者发现了随着探索越来越多,AI 却会被「困」在某处。这是因为该场景中有草、水、随意走动的 NPC,这会更容易触发新场景产生。作者通过改变画面差异的像素阈值来进行改进。除此之外,AI 还遇到了战斗画面大致相同,无法得到奖励而逃离的行为。但是不战斗,就无法前进。最后,作者通过增加额外奖励来保持 AI 的前进。