acm-header
登录gydF4y2Ba

ACM通信gydF4y2Ba

贡献的文章gydF4y2Ba

用AlphaZero重新想象国际象棋gydF4y2Ba


颜色的棋子gydF4y2Ba

图片来源:Peter Crowther AssociatesgydF4y2Ba

现代国际象棋是几个世纪经验的结晶,也是从6世纪开始规则调整的进化过程gydF4y2BathgydF4y2Ba从一个世纪到我们今天所知的现代规则。gydF4y2Ba17gydF4y2Ba虽然古典国际象棋仍然吸引着全球数百万玩家的心,但游戏绝不是静态的。多年来,热衷者和理论家们提出了许多不同的版本,并演奏了许多遍。gydF4y2Ba8gydF4y2Ba,gydF4y2Ba20.gydF4y2Ba它们通过改变棋盘、棋子的位置或规则来继续进化循环——为玩家提供“一些普通象棋中无法做到的微妙、闪亮或有趣的东西”。gydF4y2Ba1gydF4y2Ba

回到顶部gydF4y2Ba

关键的见解gydF4y2Ba

ins01.gifgydF4y2Ba

技术进步是进化周期的新驱动力。国际象棋引擎的强度增加了,玩家可以接触到数以百万计的电脑游戏和大量的开局理论。因此,超级锦标赛中决定性比赛的数量减少了,玩家从家里准备到在棋盘上玩原创棋需要更长的时间。gydF4y2Ba14gydF4y2Ba虽然古典国际象棋仍然是一种迷人的游戏,不太可能过时,但其他变体为更有创意的玩法提供了一条途径。在前世界冠军鲍比·费舍尔(Bobby Fischer)发明的费舍尔随机国际象棋中,初始位置是随机的,以对抗开局准备的主导地位。gydF4y2Ba7gydF4y2Ba开发者不仅可以考虑全新理念,还可以重新评估游戏中的一些新添加内容。例如,“castling”的移动只在17中以当前的形式出现gydF4y2BathgydF4y2Ba世纪。如果没有将王权交叠纳入规则中,国际象棋会是什么样子?我们不求助于重复历史,而是重新想象国际象棋,用AlphaZero在硅芯片中解决这类问题。gydF4y2Ba25gydF4y2Ba

AlphaZero是一个可以在没有人类监督的情况下从零开始学习超人象棋策略的系统。gydF4y2Ba19gydF4y2Ba,gydF4y2Ba22gydF4y2Ba它代表了人工智能(AI)领域的一个里程碑。为了寻找挑战和灵感,这一领域已经不止一次冒险进入国际象棋的走廊。纵观计算机国际象棋的历史,人们关注的焦点是创建能够在棋盘上与顶级人类棋手对弈的系统。gydF4y2Ba3.gydF4y2Ba自20世纪50年代以来,计算机象棋一直在稳步发展,在越来越多的计算资源上部署了更好的评估函数和增强的搜索算法。gydF4y2Ba2gydF4y2Ba,gydF4y2Ba3.gydF4y2Ba,gydF4y2Ba9gydF4y2Ba,gydF4y2Ba13gydF4y2Ba,gydF4y2Ba18gydF4y2Ba,gydF4y2Ba24gydF4y2Ba艾伦·图灵在1953年就已经有了更多的设想,他问:“我们能不能制造出一台下棋的机器,并从它的经验中,一局一局地改进它的棋艺?”gydF4y2Ba27gydF4y2Ba与前作不同的是,AlphaZero从重复的自玩游戏中从头学习策略,回答了图灵问题的第二部分。其结果是一种玩古典国际象棋的独特方法gydF4y2Ba22gydF4y2Ba以及以Leela chess Zero为首的国际象棋引擎发展的新时代。gydF4y2Ba15gydF4y2Ba

AlphaZero能够不断提高对游戏的理解,在古典象棋和围棋上达到超人的水平,gydF4y2Ba25gydF4y2Ba这让我们有机会去评估国际象棋的变体以及未来其他桌游的潜在变体。只要实现了规则,就有可能在一天内有效地模拟几十年的人类经验,从而打开一扇窗口,了解每个变体的顶级玩法。在这样做的过程中,计算机国际象棋完成了从早期的点棋开始的循环gydF4y2Ba人机大战gydF4y2Ba到合作的礼物gydF4y2Ba人与机器gydF4y2Ba在那里,AI可以让玩家探索国际象棋是什么以及它可能成为什么。gydF4y2Ba11gydF4y2Ba

回到顶部gydF4y2Ba

规则的改变gydF4y2Ba

国际象棋的规则可以通过多种方式改变。在这项工作中,我们将自己限制在不涉及起始位置变化的原子变化中,并使游戏尽可能接近古典国际象棋。我们认为其中的一些改动是新奇的,而其他的改动在国际象棋社区中已经讨论过了,但还没有被广泛采用。本研究考虑的9个变化列于gydF4y2Ba表1gydF4y2Ba.gydF4y2BaNo-castlinggydF4y2Ba而且gydF4y2BaNo-castling (10)gydF4y2Ba包括对城堡规则的全部和部分限制。gydF4y2Ba单方兵,半鱼雷,鱼雷,后兵gydF4y2Ba,gydF4y2BaPawn-sidewaysgydF4y2Ba改变典当的移动性。gydF4y2BaSelf-capturegydF4y2Ba国际象棋允许玩家捕获自己的棋子。最后,gydF4y2Ba僵局=赢gydF4y2Ba将僵局重新定义为进攻方的胜利,而不是平局。因此,它特别旨在增加游戏的决断性,通过消除某些防御模式。自我捕获有时被称为“改革棋”或“自由捕获棋”,而gydF4y2BaPawn-backgydF4y2Ba被普里查德称为“雷恩的游戏”。gydF4y2Ba20.gydF4y2Ba图1gydF4y2Ba说明了这三种变体在AlphaZero游戏中的位置。gydF4y2Ba

t1.jpggydF4y2Ba
表1。对国际象棋规则的考虑修改清单。gydF4y2Ba

f1.jpggydF4y2Ba
图1。本文分析的九种国际象棋变体中的三种由AlphaZero给出的例子。在鱼雷象棋(左)中,白方通过鱼雷移动快速反击(b4-b6)。H1之后是另一个鱼雷移动,b6-b8=。在兵横棋(中)中,黑棋在上一棋f2牺牲一名骑士后,下了一招战术兵横棋(f7-e7),打开f档,朝白方国王方向移动。在自攻棋(右)中,白方的自攻棋(xh4)对黑方国王产生威胁。gydF4y2Ba

回到顶部gydF4y2Ba

AlphaZerogydF4y2Ba

AlphaZero是一个自适应学习系统,它通过多轮自我博弈进行改进。gydF4y2Ba25gydF4y2Ba它由一个深度神经网络组成gydF4y2BafgydF4y2BaϑgydF4y2Ba与重量gydF4y2BaϑgydF4y2Ba计算(p,gydF4y2BaυgydF4y2Ba) =gydF4y2BafgydF4y2BaϑgydF4y2Ba(gydF4y2Ba年代gydF4y2Ba)对给定的位置或状态gydF4y2Ba年代。gydF4y2Ba网络输出一个移动概率向量gydF4y2BapgydF4y2Ba与元素gydF4y2BapgydF4y2Ba(gydF4y2Ba年代gydF4y2Ba|gydF4y2Ba年代gydF4y2Ba)作为考虑每一步移动的先验概率,从而考虑每一个下一个状态gydF4y2Ba年代”。gydF4y2Ba一个gydF4y2Ba如果我们用+1表示胜利,0表示平局,-1表示失败,那么网络就会额外输出一个标量估计gydF4y2BaυgydF4y2Ba从位置上看,博弈的预期结果∈(−1,1)gydF4y2Ba年代。gydF4y2Ba

移动选择是由蒙特卡洛树搜索(MCTS)完成的,它会重复搜索模拟游戏如何展开到预设的最大厚度。在一次MCTS模拟中,gydF4y2BafgydF4y2BaϑgydF4y2Ba递归地应用于位置序列,直到达到最大深度叶节点。模拟中的动作序列取决于应用于路径上每个节点的动作选择标准;它是PUCT算法的这个版本gydF4y2Ba21gydF4y2Ba这是在探索与在连续模拟中更频繁地重复更有希望的移动之间进行权衡。动作选择准则是这样的,在模拟中第一次遇到状态之前,它的结果先验向量gydF4y2BapgydF4y2Ba在“第一眼”看到棋盘时就给候选的移动分配权重。当到达一个叶节点时,其位置的计算gydF4y2BaυgydF4y2Ba是否“备份”到根节点,路径上的每个节点都增加其访问计数并包括叶节点gydF4y2BaυgydF4y2Ba在它的行动价值评估中。在多次这样的MCTS模拟之后,将播放访问次数最多的根移动。gydF4y2Ba

培训gydF4y2BafgydF4y2BaϑgydF4y2Ba(gydF4y2Ba年代gydF4y2Ba)是通过梯度下降步骤来实现的gydF4y2BapgydF4y2Ba而且gydF4y2BaυgydF4y2Ba预测下一步动作和最终的游戏结果gydF4y2Ba年代gydF4y2Ba尽可能接近游戏位置的流样本。该样本不断刷新自玩游戏生成使用gydF4y2BafgydF4y2BaϑgydF4y2Ba在其特定gydF4y2BafgydF4y2BaϑgydF4y2Ba是更新。其结果是一个反馈循环,产生不断提高质量的游戏流样本。gydF4y2Ba

我们的实验设置的起点是输入状态表示、神经网络架构、MCTS深度和动作选择标准、AlphaZero训练配置和Silver等中的硬件。gydF4y2Ba25gydF4y2Ba随着规则的改变gydF4y2Ba表1gydF4y2Ba是原子的,我们假设它的下棋质量可以与AlphaZero的经典象棋游戏相媲美gydF4y2Ba22gydF4y2Ba在相同的条件下,每一个变种都能得到。如果实验设置保持不变,除了改变合法的移动列表,我们进一步假设,游戏结果的差异将提供信息gydF4y2Ba相对gydF4y2Ba果断。我们训练每个变种gydF4y2Ba表1的gydF4y2Ba使用Silver等人的配置,从随机初始化100万梯度下降步骤的神经网络。gydF4y2Ba25gydF4y2Ba

回到顶部gydF4y2Ba

每种象棋变体的自玩游戏gydF4y2Ba

对于每一种象棋变体,我们使用得到的AlphaZero模型生成一组不同的自对局,每步1秒生成10000个自对局,每步1分钟生成1000个自对局。在缺乏外部随机性的情况下,每个变量的自我游戏在相同的时间控制下是相同的。为了生成用于分析的自玩游戏,我们通过抽样每款游戏中的前20次操作来促进多样性,这些操作与MCTS访问次数成正比。游戏结果呈现在gydF4y2Ba图2gydF4y2Ba.在我们的技术报告中,我们对自玩游戏的选择进行了注释和呈现,以及Vladimir Kramnik的定性评估。gydF4y2Ba26gydF4y2Ba

f2.jpggydF4y2Ba
图2。AlphaZero自玩游戏的结果:1万局每步1秒(左),1000局每步1分钟(右)。gydF4y2Ba

在所有变体中,平局的比例随着计算时间的延长而增加,这表明它们可能在理论上是平局的,就像古典象棋的情况一样。然而,当计算以1秒或1分钟的时间进行时,有4种变体的游戏总是比经典象棋更具有决定性:鱼雷、半鱼雷、无castling和相持=胜利。以游戏为条件gydF4y2Ba图2gydF4y2Ba,这四种变体产生的平局率低于古典象棋的后视概率在1秒计算时至少为99.9%,在1分钟计算时至少为87%(见tomavev et al.)。gydF4y2Ba26gydF4y2Ba为全面分析)。简单地说,有些变体可能更难玩,需要更多的计算和更丰富的模式。gydF4y2Ba图2gydF4y2Ba长期以来,人们一直在争论,让僵局被视为胜利,是否会让顶级国际象棋在很大程度上更具决定性。gydF4y2Ba16gydF4y2Ba在每步1秒的情况下,与传统规则相比,相持平局的情况减少了2.4%;在每次移动1分钟时,这一数值将减少0.8%。gydF4y2Ba

回到顶部gydF4y2Ba

特殊动作的运用gydF4y2Ba

国际象棋变体的特殊走法在游戏动态中扮演着重要的角色,这可以从它们在前一节所讨论的每步1分钟的自玩游戏中的使用频率中得到证明。这些变体的中位数博弈长度从62步到76步不等,而在经典规则下,中位数博弈长度为68步。这表明任何特殊的移动都不会从根本上影响玩家在棋盘上花费的时间。gydF4y2Ba

在83%的半鱼雷游戏和94%的鱼雷游戏中至少出现了一个鱼雷移动。在21%的鱼雷游戏中出现了带有鱼雷移动的兵升级,这突出了通过的兵可以升级为女王的速度。97%的典当游戏中出现了向后的卒步,而所有的典当游戏中都出现了横向的卒步。在侧边棋中,有12%的走法是侧边棋,这表明了这种新引入的走法的高利用率。在“相持=胜利”象棋中,通过相持而不是同伴赢得决定性游戏的比例是31%,尽管这个数字包含了“+ vs”等结局的结论,其中任何一个结论都是有效的胜利。在自我捕获国际象棋中,42%的游戏具有自我捕获的动作,最常见的是涉及小兵(95%),而主教(3%),骑士(1%)和车(1%)的自我捕获则比较罕见。gydF4y2Ba

回到顶部gydF4y2Ba

顶级玩法中的多样性选择gydF4y2Ba

规则的干扰不应该只给顶级棋手留下几条强迫的棋路,从而减少古典国际象棋的丰富程度。一般来说,如果有的话gydF4y2Ba米gydF4y2Ba(gydF4y2Ba年代gydF4y2BatgydF4y2Ba在地位或状态上的合法举动gydF4y2Ba年代gydF4y2BatgydF4y2Ba在厚度gydF4y2BatgydF4y2Ba,则为候选移动的次数gydF4y2Ba米gydF4y2Ba(gydF4y2Ba年代gydF4y2BatgydF4y2Ba)——一个顶级球员实际会考虑的数字——远远小于gydF4y2Ba米gydF4y2Ba(gydF4y2Ba年代gydF4y2BatgydF4y2Ba).de GrootgydF4y2Ba6gydF4y2Ba被称为gydF4y2Ba米gydF4y2Ba(gydF4y2Ba年代gydF4y2BatgydF4y2Ba)球员的合法选择自由和gydF4y2Ba米gydF4y2Ba(gydF4y2Ba年代gydF4y2BatgydF4y2Ba客观的选择自由。Iida et al。gydF4y2Ba10gydF4y2Ba假设gydF4y2Bacacm6502_a.gifgydF4y2Ba平均而言,我们发现相似的关系存在于不同的变体之间。gydF4y2Ba

选择在一个单一的位置。gydF4y2Ba我们估计在单一位置上选择的多样性gydF4y2Ba年代gydF4y2BatgydF4y2Ba通过AlphaZero先验的熵。先验是可能移动的加权列表gydF4y2Ba年代gydF4y2BatgydF4y2Ba+1gydF4y2Ba从gydF4y2Ba年代gydF4y2BatgydF4y2Ba它们被用于AlphaZero的MCTS搜索;它指定了在计算MCTS之前需要考虑的候选对象。平均信息含量,或gydF4y2Ba熵gydF4y2Ba,gydF4y2Bacacm6502_b.gifgydF4y2Ba,表示信息内容在合理的选择中可用gydF4y2Ba年代gydF4y2BatgydF4y2Ba.一个更容易理解的数字是gydF4y2Ba候选移动的平均数量gydF4y2Ba在这个位置,我们定义为gydF4y2Ba米gydF4y2Ba(gydF4y2Ba年代gydF4y2BatgydF4y2Ba) = exp (gydF4y2BaHgydF4y2Ba(gydF4y2Ba年代gydF4y2BatgydF4y2Ba))。它是的数字gydF4y2Ba均匀加权gydF4y2Ba可以编码在gydF4y2Ba相同gydF4y2Ba纳特数为gydF4y2BapgydF4y2Ba(gydF4y2Ba年代gydF4y2BatgydF4y2Ba+1gydF4y2Ba|gydF4y2Ba年代gydF4y2BatgydF4y2Ba.gydF4y2BabgydF4y2Ba这两个量将被用来构建开放树木多样性的足迹。gydF4y2Ba

开树的多样性。gydF4y2Ba我们用第一种选择的熵来衡量选择的多样性gydF4y2BaTgydF4y2Ba每一个变种的先前的玩法gydF4y2BapgydF4y2Ba从gydF4y2BafgydF4y2BaϑgydF4y2Ba(gydF4y2Ba年代gydF4y2Ba).如果gydF4y2Ba年代gydF4y2Ba= (gydF4y2Ba年代gydF4y2Ba1gydF4y2Ba,gydF4y2Ba年代gydF4y2Ba2gydF4y2Ba,……gydF4y2Ba年代gydF4y2BaTgydF4y2Ba表示之后的状态序列gydF4y2BaTgydF4y2Ba的先验概率gydF4y2Ba年代gydF4y2Ba是gydF4y2Bacacm6502_c.gifgydF4y2Ba.熵的序列gydF4y2BaTgydF4y2Ba移动是因此gydF4y2BaHgydF4y2Ba(gydF4y2BaTgydF4y2Ba) =−ΣgydF4y2Ba年代gydF4y2BapgydF4y2Ba(s)日志gydF4y2BapgydF4y2Ba(s) = = EgydF4y2Ba年代∼gydF4y2BapgydF4y2Ba(年代)gydF4y2Ba(−日志gydF4y2BapgydF4y2Ba(s)]。一个熵gydF4y2BaHgydF4y2Ba(gydF4y2BaTgydF4y2Ba) = 0表示根据先验,黑白双方可以考虑一个且仅一个合理的开口线直到深度gydF4y2BaTgydF4y2Ba,所有偏离这条线的情况都会导致偏离这条线的一方处于更糟糕的位置。一个更高的gydF4y2BaHgydF4y2Ba(gydF4y2BaTgydF4y2Ba)暗示我们会gydF4y2Ba先天的gydF4y2Ba期待一个更广阔的变化树,从而产生一个更多样化的中间游戏位置。gydF4y2BaHgydF4y2Ba(gydF4y2BaTgydF4y2Ba)包含指数数量的移动序列的平均值,我们用蒙特卡洛估计来近似。gydF4y2Ba表2gydF4y2Ba显示每个变体的20层开口树的估计熵。作为最吸引人的变体之一,棋子-一方格国际象棋的玩家将有更多可玩的候选走法,尽管它的合法走法比任何其他变体都要少。gydF4y2Ba

t2.jpggydF4y2Ba
表2。AlphaZero先验的前20层的熵(以纳特为单位),以及在等效的打开簿中的行数的估计。gydF4y2Ba

Shannon的源代码编码定理表明我们可以压缩一个游戏样本gydF4y2BapgydF4y2Ba(s)变成刚过gydF4y2BaHgydF4y2Ba(gydF4y2BaTgydF4y2Ba)。”这相当于为每个exp(gydF4y2BaHgydF4y2Ba(gydF4y2BaTgydF4y2Ba))的游戏,我们将其作为变体的开卷大小:似是而非的数量gydF4y2BaTgydF4y2Ba-游戏在一个变体。gydF4y2Ba

“均匀随机”策略gydF4y2Ba表2gydF4y2Ba在古典国际象棋中以相同的概率下所有合法的走法。它的熵是古典象棋的两倍多;相反,就像Iida等人的假设一样,gydF4y2Ba10gydF4y2Ba经典的开卷比所有合法开卷数的平方根略小。gydF4y2Ba

古典象棋vs无城堡象棋。gydF4y2Ba在大多数经典的国际象棋开局中,白衣城堡和黑衣城堡都存在,而将城堡作为一种选项的移除则深刻地改变了游戏的特征。gydF4y2Ba14gydF4y2Ba在这一节中,我们以柏林防御为例来探讨这些变化。一个工具是熵的分解gydF4y2BaHgydF4y2Ba(gydF4y2BaTgydF4y2Ba)的统计预期,它可以帮助识别防线的存在(或不存在),以一种几乎强有力的方式扳平比赛。的第一行gydF4y2Ba图3gydF4y2Ba显示-log的直方图gydF4y2BapgydF4y2Ba(年代)gydF4y2Ba年代gydF4y2Ba是由1之后的AlphaZero先验生成的。e4和1。f3。直方图提供了开放多样性的足迹。gydF4y2Ba

f3.jpggydF4y2Ba
图3。统计足迹的多样性回应1。e4和1。经典和无城堡象棋中的f3,以及每层白棋和黑棋的候选走法的平均数量。gydF4y2Ba

柏林辩护。gydF4y2Ba在古典国际象棋中,黑棋在Ruy Lopez(1。e4 e5 2。f3 c6 3。b5)是柏林防御,从3开始,f6。2000年,弗拉基米尔·克拉姆尼克在与加里·卡斯帕罗夫的世界冠军比赛中成功地将其作为布莱克的防守资源。在比赛之前,当时的国际象棋引擎对柏林局的评价是白棋的优势在+1左右,但今天它被认为是非常可靠的,现代引擎对大多数上升位置的评价是平等的。gydF4y2Ba26gydF4y2Ba

在gydF4y2Ba图3gydF4y2Ba(左上),样本gydF4y2Ba年代gydF4y2Ba这促成了1之后的高概率峰值。e4对应于AlphaZero在古典象棋中对柏林防线的强烈偏好。在1之后的行占用空间中。F3,峰值消失,表明双方的可能性范围更大。白棋对3的主要反应。f6是4。oo。如果不选择城堡,柏林防线和许多其他防线要么消失,要么变得不那么突出。E4产生了与1相似的首选路线。f3。gydF4y2Ba

候选移动的平均数量。gydF4y2Ba国际象棋变体的初始树的熵是一个笨拙的数字,它不能立即告诉我们每种变体中有多少走法选项。相反,gydF4y2Ba图3gydF4y2Ba(下行)还显示了每层候选移动的平均数量gydF4y2BaTgydF4y2Ba, (gydF4y2BaTgydF4y2Ba) =ΣgydF4y2Ba年代gydF4y2BapgydF4y2Ba(s) m (sgydF4y2BaTgydF4y2Ba) = EgydF4y2Ba年代∼gydF4y2BapgydF4y2Ba(年代)gydF4y2Ba,用于连续的层数gydF4y2BaTgydF4y2Ba= 2,3,…在1之后。e4和1。f3。值得注意的是,布莱克在1岁后的平均选择要少得多。e4在古典国际象棋中比无城堡国际象棋中多。当王权作为一种合法的移动被移除时,我们可以期待白棋和黑棋在前20层的每一步中都至少有一个更合理的移动。gydF4y2Ba

回到顶部gydF4y2Ba

一块价值gydF4y2Ba

材料在国际象棋中扮演着重要的角色,经常被用来评估特定的棋子交换和捕获顺序是否有利。在国际象棋中,物质的牺牲要么是为了具体的战术原因——例如,配对攻击——要么是为了长期的位置优势。了解棋子的材料价值有助于玩家掌握游戏,这是教给初学者的第一批象棋知识之一。gydF4y2Ba

我们通过训练的线性模型的权重来近似棋子值,以预测任何给定位置的棋子数量差异的游戏结果,给定为gydF4y2BadgydF4y2Ba= [1,gydF4y2BadgydF4y2Ba,gydF4y2BadgydF4y2Ba,gydF4y2BadgydF4y2Ba,gydF4y2BadgydF4y2Ba,gydF4y2BadgydF4y2Ba].我们为每一个象棋变体拟合快速下AlphaZero游戏的模型。我们定义gydF4y2BaggydF4y2BawgydF4y2Ba与重量gydF4y2BawgydF4y2Ba∈RgydF4y2Ba6gydF4y2Ba作为gydF4y2BaggydF4y2BawgydF4y2Ba(gydF4y2Ba年代gydF4y2Ba) =双曲正切(gydF4y2BawgydF4y2BaTgydF4y2BadgydF4y2Ba).在线性模型中,权重gydF4y2BawgydF4y2Ba标明相对件的重要性。如果(gydF4y2Ba年代gydF4y2Ba,gydF4y2BazgydF4y2Ba) ~gydF4y2Ba游戏gydF4y2Ba代表一个变量的自玩博弈中一个位置和最终博弈结果的样本,我们将其最小化gydF4y2BaℓgydF4y2Ba(gydF4y2BawgydF4y2Ba) = EgydF4y2Ba(年代,z)∼游戏gydF4y2Ba[(z−ggydF4y2BawgydF4y2Ba(s))gydF4y2Ba2gydF4y2Ba]经验gydF4y2BawgydF4y2Ba和规范化的重量gydF4y2BawgydF4y2Ba通过gydF4y2BawgydF4y2Ba以产生相对块值。为每一个象棋变体恢复的棋子值在gydF4y2Ba表3gydF4y2Ba.gydF4y2Ba

t3.jpggydF4y2Ba
表3。估计AlphaZero自玩游戏中每个变体的棋子值。gydF4y2Ba

针对古典象棋的棋子价值估算,该方法近似地恢复了已知的材料价值gydF4y2Ba4gydF4y2Ba,gydF4y2Ba12gydF4y2Ba并认为主教比骑士更有价值。在无王权、无王权(10)、单方卒、自攻和相持=赢的变体中,棋子价值的估计值看起来相当相似,考虑到与其他变体相比棋子流动性的微小差异,这并不令人惊讶。增加兵卒机动性的变体会导致其他棋子的相对价值降低,比如后兵、半鱼雷、鱼雷和侧兵。在侧兵棋中,AlphaZero通常认为用一个骑士或主教交换两个小兵是有利的,这与这种近似一致。在古典象棋中,这样的交换通常被认为是糟糕的。在不同的游戏阶段和位置类型中,材料的价值可能会有所不同gydF4y2Ba表3gydF4y2Ba只是为了帮助新玩家理解这些国际象棋变体中的战术交流。gydF4y2Ba

回到顶部gydF4y2Ba

从重新想象到现实gydF4y2Ba

人类的好奇心和强大的强化学习系统的结合,让我们重新想象如果历史走了一条稍微不同的道路,国际象棋会是什么样子。当将顶级AlphaZero游戏的统计属性与经典国际象棋进行比较时,会出现许多更具决定性的变体,而不会影响玩家可能选择的多样性。除了数学评估,我们还可以通过美学的视角来看待真正的游戏;这是托马耶夫等人做的。gydF4y2Ba26gydF4y2Ba在许多在线论坛上也是如此。gydF4y2Ba14gydF4y2Ba

综上所述,统计属性和美学为我们提供了证据,即某些变体能够创造出与经典国际象棋一样吸引人的游戏。鱼雷,侧身兵,无castling和自我捕获等变体现在是现实的,可以在主要的国际象棋门户网站,如chess.com上玩。gydF4y2Ba5gydF4y2Ba根据初步证据,第一届无骑车比赛于2020年1月在金奈举行。gydF4y2Ba23gydF4y2Ba国际象棋在人工智能研究中的作用远未结束。本文的结果是一项研究的结果gydF4y2Ba人与机器gydF4y2Ba,展示了人工智能如何提供证据,将重新想象变成现实。gydF4y2Ba

除了象棋,本文的贡献还在于能够在具有已知动态的环境中学习代理的策略,然后探索环境中的变化,以度量代理行为的不同涌现属性。gydF4y2Ba28gydF4y2Ba我们相信,类似的方法也可以用于其他类型游戏(包括电脑游戏)的自动调整游戏机制,如果有足够强大的强化学习系统可用的话。gydF4y2Ba

uf1.jpggydF4y2Ba
数字观看作者在独家报道中讨论这项工作gydF4y2Ba通信gydF4y2Ba视频。gydF4y2Ba//www.eqigeno.com/videos/reimagining-chess-alphazerogydF4y2Ba

回到顶部gydF4y2Ba

参考文献gydF4y2Ba

1.可恶,j,我们能从一个新的国际象棋变体中期待什么呢?gydF4y2Ba变体国际象棋4gydF4y2Ba, 29(1998), 2。gydF4y2Ba

2.柏林,h . 1gydF4y2Ba圣gydF4y2Ba美国计算机国际象棋锦标赛。gydF4y2Ba国际象棋生活gydF4y2Ba(1970年11月),638年。gydF4y2Ba

3.坎贝尔,M.,小霍恩,J.,许,F-h.。深蓝。gydF4y2BaArtif。134年智能。gydF4y2Ba,(2002), 57 - 83。gydF4y2Ba

4.j·r·卡布兰卡和N·德·菲尔米安。gydF4y2Ba国际象棋基础:完全修订和更新的21gydF4y2Ba圣gydF4y2Ba世纪。gydF4y2Ba《兰登书屋谜题与游戏》(2006)。gydF4y2Ba

5.Chess.com变体。Chess.com。gydF4y2Bahttp://chess.com/variantsgydF4y2Ba.gydF4y2Ba

6.de Groot,公元gydF4y2BaHet Denken van den Schaker。(象棋中的思想与选择)。gydF4y2Ba阿姆斯特丹大学出版社,1946年。gydF4y2Ba

7.Gligorić,S。gydF4y2Ba我们要不要下fisher random国际象棋?gydF4y2BaBatsford 2002gydF4y2Ba

8.Gollon, J。gydF4y2Ba国际象棋变体:古代,地区和现代。gydF4y2BaCharles E. Tuttle公司,1968年。gydF4y2Ba

9.亨氏,电子艺界gydF4y2Ba计算机象棋中的可扩展搜索。gydF4y2BaVieweg + Teubner 1 -(2000)。gydF4y2Ba

10.Iida, H, Takeshita, N, Yoshimura, J.桌面游戏的娱乐度量:它对国际象棋变体进化的影响。在gydF4y2Ba娱乐计算:技术与应用gydF4y2Ba, R. Nakatsu和J.星野编。(2003)。65 - 72。gydF4y2Ba

11.卡斯帕罗夫,G。gydF4y2Ba深度思考:机器智能的终结和人类创造力的开始。gydF4y2Ba约翰·默里,2017年。gydF4y2Ba

12.物质失衡的评价。gydF4y2Ba国际象棋的生活gydF4y2Ba(1999)。gydF4y2Ba

13.Knuth, D.E., Moore, R.W. alpha-beta修剪的分析。gydF4y2BaArtif。智能。gydF4y2Ba, 4(1975), 293-326。gydF4y2Ba

14.克拉尼克,V.克拉尼克和AlphaZero:如何重新思考国际象棋。gydF4y2BaChess.comgydF4y2Ba(2019年12月2日),gydF4y2Bahttps://chess.com/article/view/no-castling-chess-kramnik-alphazerogydF4y2Ba.gydF4y2Ba

15.LCZero开发社区。象棋Leela都为零。gydF4y2Bahttps://lczero.orggydF4y2Ba.gydF4y2Ba

16.僵局:它的长短。gydF4y2BaChessBasegydF4y2Ba(2014年8月2日),gydF4y2Bahttps://en.chessbase.com/post/stalemate-the-long-and-the-short-of-itgydF4y2Ba.gydF4y2Ba

17.穆雷H.J.R.gydF4y2Ba国际象棋的历史。gydF4y2Ba牛津大学出版社(1913年)gydF4y2Ba

18.新生儿,M。gydF4y2Ba计算机国际象棋。gydF4y2Ba学术出版社,gydF4y2Ba

19.马格努斯遇到AlphaZero的时候。gydF4y2Ba新的国际象棋gydF4y2Ba(2019年12月),5。gydF4y2Ba

20.Pritchard D.B. cooper,gydF4y2Ba国际象棋变体分类百科全书。gydF4y2Ba《游戏与谜题》(1994)。gydF4y2Ba

21.松辛,C.D.多武装匪徒,有情节背景。gydF4y2Ba安。数学。Artif。61年智能。gydF4y2Ba, 3(2011), 203-230。gydF4y2Ba

22.萨德勒和里根。gydF4y2Ba改变游戏规则:AlphaZero突破性的国际象棋策略和人工智能的前景。gydF4y2Ba《新象棋》(2019年2月)。gydF4y2Ba

23.Shah, S.首次“无城堡”比赛的结果在89%决定性的比赛!国际象棋基地(2020年1月19日),gydF4y2Bahttps://en.chessbase.com/post/the-first-ever-no-castling-chess-tournament-results-in-89-decisive-gamesgydF4y2Ba.gydF4y2Ba

24.香农,c。e。给下棋的电脑编程。gydF4y2Ba费罗斯。41玛格。gydF4y2Ba, 314(1950), 256-275。gydF4y2Ba

25.Silver, D., Hubert, T., Schrittwieser, J., Antonoglou, I., Lai, M., Guez, A., Lanctot, M., Sifre, L., Kumaran, D., Graepel, T., Lillicrap, T., Simonyan, K., Hassabis, D.一个通用的强化学习算法,通过自我游戏掌握国际象棋,shogi和Go。gydF4y2Ba科学362gydF4y2Ba, 6419(2018), 1140-1144。gydF4y2Ba

26.托马耶夫,N.,帕奎特,U.,哈萨比斯,D.和克拉姆尼克,V.用AlphaZero评估游戏平衡:探索国际象棋中的替代规则集(2020年9月)。arXiv: cs.AI / 2009.04374gydF4y2Ba

27.图灵:应用于游戏的数字计算机。在gydF4y2Ba快于想象:数字计算机研讨会gydF4y2Ba, B.V.鲍登编。皮特曼出版社,伦敦,1953,286-310。gydF4y2Ba

28.张宏,王建军,周志强,张伟,文勇,于勇,李伟,学习设计游戏:强化学习中的战略环境。在gydF4y2Ba第27届实习生会议记录。人工智能联合会议(2018)gydF4y2Ba朗主编,3068-3074。gydF4y2Ba

回到顶部gydF4y2Ba

作者gydF4y2Ba

托马Nenadš电动车gydF4y2Ba是DeepMind科技有限公司的研究科学家。gydF4y2Ba

乌尔里希PaquetgydF4y2Ba是DeepMind科技有限公司的研究科学家。gydF4y2Ba

黛米斯。gydF4y2Ba是DeepMind科技有限公司的创始人兼首席执行官。gydF4y2Ba

弗拉基米尔•克拉姆尼克gydF4y2Ba是前国际象棋世界冠军(2000-2007)。gydF4y2Ba

回到顶部gydF4y2Ba

脚注gydF4y2Ba

a.我们在一定程度上抑制了符号;从技术上讲,概率是超过动作或移动的gydF4y2Ba一个gydF4y2Ba在国家gydF4y2Ba年代gydF4y2Ba,而是作为每一个动作gydF4y2Ba一个gydF4y2Ba确定性地指向一个单独的下一个位置gydF4y2Ba年代gydF4y2Ba,我们用简洁gydF4y2BapgydF4y2Ba(gydF4y2Ba年代gydF4y2Ba|gydF4y2Ba年代gydF4y2Ba)。gydF4y2Ba

b.作为一个说明性的例子,如果候选移动的数量是gydF4y2Ba米gydF4y2Ba(gydF4y2Ba年代gydF4y2BatgydF4y2Ba) = 3gydF4y2BapgydF4y2Ba(gydF4y2Ba年代gydF4y2BatgydF4y2Ba+1gydF4y2Ba|gydF4y2Ba年代gydF4y2BatgydF4y2Ba),那么它的所有运动都可能产生非零质量gydF4y2Ba米gydF4y2Ba(gydF4y2Ba年代gydF4y2BatgydF4y2Ba)也等于概率向量p=[1/3,1/3,1/3,0,…,0]的候选移动数,该概率向量只在三次移动上放置等量的非零质量。gydF4y2Ba


版权由作者/所有者持有。gydF4y2Ba
向所有者/作者请求(重新)发布权限gydF4y2Ba

数字图书馆是由计算机协会出版的。版权所有©2022 ACM, Inc.gydF4y2Ba


没有发现记录gydF4y2Ba

Baidu
map