7行棋盘成AI噩梦！AlphaGo训练法竟“失灵”

近年来，人工智能技术突飞猛进，尤其在围棋、国际象棋等复杂策略游戏中展现出了令人惊叹的实力。谷歌旗下DeepMind团队开发的AlphaGo系列AI，曾通过海量自我对弈训练，成功掌握了多款游戏，甚至在围棋上击败了人类顶尖选手，一度让人们认为AI能够解决任何智力挑战。这无疑极大地激发了人们对人工智能的无限遐想，认为它已然找到了通往智能巅峰的康庄大道。

然而，在AI一路高歌猛进的同时，一些令人费解的现象也悄然浮现。例如，在围棋领域，有人发现特定的棋局位置，一个经验相对不足的人类棋手反而能击败强大的围棋AI，而类似的AI之间对弈时却能轻松获胜。这些看似微不足道的“异常”，实则为我们深入理解AI的运作机制、识别其潜在的“盲区”提供了宝贵线索。在人工智能日益融入我们日常生活，甚至在关键决策中扮演重要角色的当下，识别并改进这些“盲区”变得尤为重要。这不仅仅关乎游戏胜负，更可能影响到AI在医疗、金融、科研等更广阔领域的可靠性。

新媒网跨境获悉，外媒近期在《机器学习》杂志上刊登的一篇论文，就揭示了一整类游戏，这些游戏对于AlphaGo等AI的训练方法而言，简直就是一场“噩梦”。令人意想不到的是，这些让AI头疼的游戏，其规则往往非常简单，甚至孩童也能轻松学会。其中一个典型的例子，便是研究人员深入探讨的“尼姆（Nim）”游戏。

尼姆游戏：简单的规则，深奥的挑战

尼姆游戏以其独特的设定和规则吸引了研究者的目光。想象一下，你面前摆放着一堆火柴棒，它们通常呈金字塔状排列：最上面一层只有一根火柴，下面每一层比上一层多两根，以此类推，构建出一个层层递进的火柴堆。游戏的规则非常直观：两位玩家轮流操作，每次从任意一行中移除任意数量（至少一根，至多整行）的火柴棒。游戏持续进行，直到棋盘上没有合法的移动为止。对于人类而言，这是一款可以轻松教会小朋友的简单游戏。

然而，正是这款看似简单的游戏，却成为了一个理解“公平游戏”（Impartial Game）的关键范例。公平游戏与国际象棋这类游戏不同，在国际象棋中，每位玩家都拥有各自独特的棋子；而在公平游戏中，两位玩家共享同样的棋子，并且遵循相同的游戏规则。尼姆游戏的特殊之处在于一个重要的数学定理：任何公平游戏中的棋局配置，都可以用尼姆游戏的某种配置来表示。这意味着，如果在尼姆游戏中发现的某种规律或结论，可以推广到所有的公平游戏。

尼姆游戏及其他公平游戏的一个显著特点是，在游戏的任何时刻，玩家都可以通过评估当前的棋盘状态，来判断哪一方具有潜在的获胜优势。换句话说，只要你了解当前的局面，并且能够从那一刻起一直采取最优策略，你就能大概率赢得比赛。要做到这一点，只需要将棋盘的配置输入一个“奇偶校验函数”进行计算，这个函数会通过数学运算告诉你当前是否处于优势地位。当然，处于优势的一方也有可能因为走了一步非最优的棋而最终失利，而确切的最优走法序列，通常要到游戏后期才能完全确定，因为它会根据对手的实际行动而变化。

正是基于对尼姆游戏独特性的认知，两位研究人员周贝和索伦·里斯提出了一个简单而深刻的问题：如果采用AlphaGo系列AI的训练方法，去训练一个尼姆游戏的AI，结果会怎样？换句话说，他们想知道，AI能否仅仅通过在尼姆游戏中与自己对弈，就独立地“发展”出一种对奇偶校验函数的理解和运用能力？

自我对弈的局限性

以国际象棋AI AlphaZero为例，它在训练之初，除了国际象棋的规则，没有任何先验知识。通过海量的自我对弈，它学会了将不同的棋盘配置与获胜概率关联起来。为了避免陷入固定的思维模式，训练中还加入了随机抽样元素，促使其不断探索新的策略和局面。一旦它能识别出少数具有高价值的走法，就能沿着这些走法深入探索未来的可能性。玩的对局越多，它为给定局面下可能出现的棋盘配置分配价值的能力就越强（尽管在达到一定对局数量后，收益会逐渐递减）。

然而，尼姆游戏的情况有所不同。在任何给定的棋盘配置下，最优的走法数量是有限的。如果你没有选择其中一个最优走法，就相当于将控制权拱手让给了对手，如果对手此后每一步都走最优解，那么你最终将会输掉游戏。再次强调，这些最优走法可以通过评估一个数学上的奇偶校验函数来识别。因此，有理由推测，在国际象棋中行之有效的训练过程，可能并不适用于尼姆游戏。但令人惊讶的是，实际结果比预想的还要糟糕。

周贝和索伦·里斯的研究发现，对于只有五行的尼姆棋盘，AI确实学习得很快，并且在经过500次训练迭代后仍在持续改进。然而，仅仅增加一行，即变为六行棋盘，AI的改进速度就急剧减缓了。而对于七行棋盘，当AI自我对弈500次后，其性能提升几乎完全停滞。这无疑是一个非常关键的发现，它表明AI的学习能力并非线性增长，而是可能在特定复杂度阈值前戛然而止。

为了更清晰地说明这个问题，研究人员将原本用于建议潜在走法的子系统，替换成了一个完全随机操作的系统。在七行尼姆棋盘上，经过训练的AI与随机选择走法的AI，在500次训练对局中的表现几乎无法区分。这实质上意味着，一旦棋盘的规模足够大，这个系统就无法通过观察游戏结果进行有效的学习。它就像一个盲人摸象的团队，虽然摸了无数次，却始终无法描绘出大象的全貌。

在七行尼姆棋盘的初始配置中，有三个潜在的走法都能够导向最终的胜利。然而，研究系统中经过训练的走法评估器在检查所有潜在走法时，却将每一个走法都评估为大致相同。研究人员由此得出结论：要有效玩尼姆游戏，玩家必须学会理解和运用奇偶校验函数。而AlphaGo等AI所采用的、在国际象棋和围棋中表现出色的训练程序，却无法做到这一点。

尼姆之外：更深远的警示

或许有人会认为，尼姆游戏（以及由此引申出的所有公平游戏）只是一个特例，显得有些“怪异”。然而，周贝和索伦·里斯的研究也发现了一些迹象，表明类似的问题也可能出现在以同样方式训练的国际象棋AI中。他们识别出了一些“错误”的国际象棋走法——这些走法可能错失了绝杀机会，或者在残局中犯下失误——这些走法最初被AI的棋盘评估器评为高分。只是因为软件能够提前探索多个回合的后续分支，才得以避免这些失误。

对于许多尼姆棋盘配置而言，导向胜利的最优分支往往需要一直下到游戏的终点才能体现其价值。因此，这种通过提前预测来避免潜在失误的策略，在尼姆游戏中实施起来要困难得多。研究人员还指出，人类国际象棋棋手曾发现一些需要漫长走法链才能实现的绝杀组合，而这些组合往往被国际象棋AI完全忽视。

这些现象不禁让人思考：问题并非国际象棋中不存在类似挑战，而是尼姆类棋盘配置在国际象棋中相对罕见。或许，围棋游戏中AI的那些奇怪弱点，也同样可以用这个理论来解释。周贝和索伦·里斯认为：“AlphaZero擅长通过关联学习，但当问题需要某种符号推理，且这种推理无法从游戏状态与结果的关联中隐式学习时，它便会力不从心。”换言之，即使游戏的规则简单明了，能够推导出简单的行动准则，我们也不能指望Alpha系列AI的训练方式能让AI自动识别出这些准则。其结果，便是他们所称的“显著而灾难性的失败模式”。

那么，这一切为何如此重要？当前，许多研究者正积极探索AI在解决数学问题方面的潜力，而数学问题往往需要将棋盘配置（或特定数据结构）中的信息，外推为奇偶校验函数之类的通用规则，这正是符号推理的核心。虽然目前尚不清楚如何训练AI才能真正实现这种能力，但至少了解哪些方法是行不通的，无疑能为未来的研究指明方向，避免重复无效的尝试。我们正站在人工智能发展的新拐点，理解这些深层次的学习机制，将有助于我们构建更加智能、更加通用，也更加“理解”世界的AI系统。
图片说明