机器人可以在多人角色扮演游戏中打败人类

麻省理工学院的研究人员开发了一款配备了人工智能的机器人,它可以在复杂的多人在线游戏中击败人类玩家,玩家的角色和动机都是保密的。

许多游戏机器人都是为了跟上人类玩家的步伐而设计的。今年早些时候,卡内基梅隆大学(Carnegie Mellon University)的一个团队开发了世界上第一个可以在多人扑克游戏中击败专业人士的机器人。2016年,DeepMind的AlphaGo打败了一名职业棋手,成为头条新闻。一些机器人也被用来打败专业棋手或在合作游戏(如在线抓旗)中组队。然而,在这些游戏中,机器人从一开始就知道它的对手和队友。

在下个月的神经信息处理系统会议上,研究人员将介绍DeepRole,这是第一款能够赢得多人在线游戏的游戏机器人,在这种游戏中,参与者的团队忠诚度最初并不明确。该机器人被设计成一种新颖的“演绎推理”,并被添加到一种通常用于打扑克的人工智能算法中。这有助于它推断出部分可观察到的行为,从而确定给定的玩家是队友还是对手的概率。在这样做的过程中,它很快就学会了与谁结盟,以及采取哪些行动来确保团队的胜利。

研究人员让DeepRole和人类玩家进行了超过4000轮的在线游戏《抵抗:阿瓦隆》(The Resistance: Avalon)。在这个游戏中,玩家试图在游戏进行的过程中推断出同伴的秘密角色,同时隐藏自己的角色。无论作为队友还是对手,DeepRole的表现一直都比人类球员出色。

“如果你用机器人取代了一个人类队友,你可以期待更高的团队胜率。机器人是更好的合作伙伴,”第一作者Jack Serrino ‘ 18说,他在麻省理工学院主修电子工程和计算机科学,是一个狂热的在线“阿瓦隆”玩家。

这项工作是一个更广泛的项目的一部分,该项目旨在更好地模拟人类如何做出明智的社会决策。这样做可以帮助机器人更好地理解、学习和与人类合作。

“人类学习和与他人合作,这使我们能够实现在一起没有人能单独做到的事情,”合著者说马克斯•Kleiman-Weiner大脑中心的博士后,思想和机器,麻省理工学院大脑与认知科学系和哈佛大学。“像《阿瓦隆》这样的游戏更好地模拟了人类在日常生活中所经历的动态社会环境。你必须弄清楚谁是你的团队中的一员,谁会和你一起工作,不管是你第一天上幼儿园还是第二天上班。”

与瑟里诺和克莱曼-维纳一起发表论文的还有哈佛大学的大卫·c·帕克斯和计算认知科学教授、麻省理工学院计算机科学和人工智能实验室以及大脑、心智和机器中心的成员乔舒亚·b·特南鲍姆。

演绎机器人

在《阿瓦隆》中,三名玩家被随机和秘密地分配到“抵抗”队,两名玩家被分配到“间谍”队。两个间谍玩家都知道所有玩家的角色。在每个回合中,一名玩家提议由两到三名玩家组成一个子集来执行一个任务。所有玩家同时公开投票赞成或反对子集。如果大多数人同意,则子集秘密地确定任务是否成功或失败。如果选择两个“成功”,任务成功;如果选择了一个“失败”,任务失败。抵抗玩家必须始终选择成功,而间谍玩家可以选择任何一种结果。抵抗队在三次成功的任务后获胜;间谍队在三次任务失败后获胜。

赢得比赛基本上归结于推断谁是抵抗或间谍,并投票给你的合作者。但实际上,这比下棋和打扑克要复杂得多。克莱曼-韦纳说:“这是一个信息不完全的游戏。“刚开始的时候,你甚至不知道自己在和谁对抗,所以还有一个额外的发现阶段,那就是寻找合作对象。”

DeepRole使用了一种名为“反事实后悔最小化”(CFR)的游戏规划算法,该算法通过反复与自己对弈来学会玩游戏,并辅以演绎推理。在游戏的每一点上,CFR都要提前创建一个决策“游戏树”,其中包含描述每个玩家未来可能采取的行动的行和节点。游戏树表示每个玩家在每个未来决策点可以采取的所有可能的行动(行)。在进行可能高达数十亿次的游戏模拟时,CFR会注意到哪些动作增加了或减少了获胜的机会,并不断修正自己的策略,使其包含更多好的决策。最终,它会制定一个最优策略,在最坏的情况下,它会与任何对手打成平手。

CFR在像扑克这样的游戏中运行良好,但当行为是秘密的时候,它就会陷入困境。研究人员的CFR将公共行为和私人行为的后果结合起来,以确定玩家是抵抗还是间谍。

机器人通过与自己对抗来训练,既是抵抗又是间谍。当玩在线游戏时,它使用游戏树来估计每个玩家将要做什么。游戏树代表了一种策略,即赋予每个玩家最大的可能性去赢得指定的角色。树的节点包含“反事实值”,这基本上是对玩家在使用给定策略时获得的收益的估计。

在每个任务中,机器人会将每个人的游戏方式与游戏树进行比较。如果在整个游戏中,玩家做出了许多与机器人的预期不一致的决定,那么他很可能扮演了另一个角色。最终,机器人为每个玩家分配一个高概率的角色。这些概率被用来更新机器人的策略,增加它获胜的机会。

同时,它使用相同的技术来估计第三人称观察者如何解释它自己的行为。这有助于它评估其他玩家的反应,帮助它做出更明智的决定。“如果是两个人的任务失败了,其他玩家就会知道其中一个是间谍。这个机器人可能不会在未来的任务中推荐同一个团队,因为它知道其他玩家认为这很糟糕,”Serrino说。

语言:下一个前沿

有趣的是,机器人不需要与其他玩家交流,而这通常是游戏的关键部分。“阿瓦隆”允许玩家在游戏期间通过文本模块聊天。克莱曼-韦纳说:“但事实证明,我们的机器人能够很好地与其他人类团队合作,而只观察玩家的动作。”“这很有趣,因为人们可能会认为这样的游戏需要复杂的沟通策略。”

接下来,研究人员可能会让机器人在游戏过程中通过简单的文字进行交流,比如说出一个玩家是好是坏。这将涉及到将文本分配到玩家是抵抗者或间谍的相关概率,这是机器人已经用来做决定的。除此之外,未来的机器人可能会配备更复杂的通信能力,使它能够玩语言负担沉重的社交推理游戏——比如流行游戏“狼人”——这需要花费几分钟时间来争论和说服其他玩家谁是好谁是坏的团队。

“语言绝对是下一个前沿,”Serrino说。“但在这些游戏中,有许多挑战需要应对,沟通是关键。”

新闻旨在传播有益信息,英文原版地址:http://news.mit.edu/2019/deeprole-ai-beat-humans-role-games-1120

http://petbyus.com/19148/