7行棋盘成AI噩梦!AlphaGo训练法竟“失灵”

2026-03-14人工智能

7行棋盘成AI噩梦!AlphaGo训练法竟“失灵”

近年来,人工智能技术突飞猛进,尤其在围棋、国际象棋等复杂策略游戏中展现出了令人惊叹的实力。谷歌旗下DeepMind团队开发的AlphaGo系列AI,曾通过海量自我对弈训练,成功掌握了多款游戏,甚至在围棋上击败了人类顶尖选手,一度让人们认为AI能够解决任何智力挑战。这无疑极大地激发了人们对人工智能的无限遐想,认为它已然找到了通往智能巅峰的康庄大道。

然而,在AI一路高歌猛进的同时,一些令人费解的现象也悄然浮现。例如,在围棋领域,有人发现特定的棋局位置,一个经验相对不足的人类棋手反而能击败强大的围棋AI,而类似的AI之间对弈时却能轻松获胜。这些看似微不足道的“异常”,实则为我们深入理解AI的运作机制、识别其潜在的“盲区”提供了宝贵线索。在人工智能日益融入我们日常生活,甚至在关键决策中扮演重要角色的当下,识别并改进这些“盲区”变得尤为重要。这不仅仅关乎游戏胜负,更可能影响到AI在医疗、金融、科研等更广阔领域的可靠性。

新媒网跨境获悉,外媒近期在《机器学习》杂志上刊登的一篇论文,就揭示了一整类游戏,这些游戏对于AlphaGo等AI的训练方法而言,简直就是一场“噩梦”。令人意想不到的是,这些让AI头疼的游戏,其规则往往非常简单,甚至孩童也能轻松学会。其中一个典型的例子,便是研究人员深入探讨的“尼姆(Nim)”游戏。

尼姆游戏:简单的规则,深奥的挑战

尼姆游戏以其独特的设定和规则吸引了研究者的目光。想象一下,你面前摆放着一堆火柴棒,它们通常呈金字塔状排列:最上面一层只有一根火柴,下面每一层比上一层多两根,以此类推,构建出一个层层递进的火柴堆。游戏的规则非常直观:两位玩家轮流操作,每次从任意一行中移除任意数量(至少一根,至多整行)的火柴棒。游戏持续进行,直到棋盘上没有合法的移动为止。对于人类而言,这是一款可以轻松教会小朋友的简单游戏。

然而,正是这款看似简单的游戏,却成为了一个理解“公平游戏”(Impartial Game)的关键范例。公平游戏与国际象棋这类游戏不同,在国际象棋中,每位玩家都拥有各自独特的棋子;而在公平游戏中,两位玩家共享同样的棋子,并且遵循相同的游戏规则。尼姆游戏的特殊之处在于一个重要的数学定理:任何公平游戏中的棋局配置,都可以用尼姆游戏的某种配置来表示。这意味着,如果在尼姆游戏中发现的某种规律或结论,可以推广到所有的公平游戏。

尼姆游戏及其他公平游戏的一个显著特点是,在游戏的任何时刻,玩家都可以通过评估当前的棋盘状态,来判断哪一方具有潜在的获胜优势。换句话说,只要你了解当前的局面,并且能够从那一刻起一直采取最优策略,你就能大概率赢得比赛。要做到这一点,只需要将棋盘的配置输入一个“奇偶校验函数”进行计算,这个函数会通过数学运算告诉你当前是否处于优势地位。当然,处于优势的一方也有可能因为走了一步非最优的棋而最终失利,而确切的最优走法序列,通常要到游戏后期才能完全确定,因为它会根据对手的实际行动而变化。

正是基于对尼姆游戏独特性的认知,两位研究人员周贝和索伦·里斯提出了一个简单而深刻的问题:如果采用AlphaGo系列AI的训练方法,去训练一个尼姆游戏的AI,结果会怎样?换句话说,他们想知道,AI能否仅仅通过在尼姆游戏中与自己对弈,就独立地“发展”出一种对奇偶校验函数的理解和运用能力?

自我对弈的局限性

以国际象棋AI AlphaZero为例,它在训练之初,除了国际象棋的规则,没有任何先验知识。通过海量的自我对弈,它学会了将不同的棋盘配置与获胜概率关联起来。为了避免陷入固定的思维模式,训练中还加入了随机抽样元素,促使其不断探索新的策略和局面。一旦它能识别出少数具有高价值的走法,就能沿着这些走法深入探索未来的可能性。玩的对局越多,它为给定局面下可能出现的棋盘配置分配价值的能力就越强(尽管在达到一定对局数量后,收益会逐渐递减)。

然而,尼姆游戏的情况有所不同。在任何给定的棋盘配置下,最优的走法数量是有限的。如果你没有选择其中一个最优走法,就相当于将控制权拱手让给了对手,如果对手此后每一步都走最优解,那么你最终将会输掉游戏。再次强调,这些最优走法可以通过评估一个数学上的奇偶校验函数来识别。因此,有理由推测,在国际象棋中行之有效的训练过程,可能并不适用于尼姆游戏。但令人惊讶的是,实际结果比预想的还要糟糕。

周贝和索伦·里斯的研究发现,对于只有五行的尼姆棋盘,AI确实学习得很快,并且在经过500次训练迭代后仍在持续改进。然而,仅仅增加一行,即变为六行棋盘,AI的改进速度就急剧减缓了。而对于七行棋盘,当AI自我对弈500次后,其性能提升几乎完全停滞。这无疑是一个非常关键的发现,它表明AI的学习能力并非线性增长,而是可能在特定复杂度阈值前戛然而止。

为了更清晰地说明这个问题,研究人员将原本用于建议潜在走法的子系统,替换成了一个完全随机操作的系统。在七行尼姆棋盘上,经过训练的AI与随机选择走法的AI,在500次训练对局中的表现几乎无法区分。这实质上意味着,一旦棋盘的规模足够大,这个系统就无法通过观察游戏结果进行有效的学习。它就像一个盲人摸象的团队,虽然摸了无数次,却始终无法描绘出大象的全貌。

在七行尼姆棋盘的初始配置中,有三个潜在的走法都能够导向最终的胜利。然而,研究系统中经过训练的走法评估器在检查所有潜在走法时,却将每一个走法都评估为大致相同。研究人员由此得出结论:要有效玩尼姆游戏,玩家必须学会理解和运用奇偶校验函数。而AlphaGo等AI所采用的、在国际象棋和围棋中表现出色的训练程序,却无法做到这一点。

尼姆之外:更深远的警示

或许有人会认为,尼姆游戏(以及由此引申出的所有公平游戏)只是一个特例,显得有些“怪异”。然而,周贝和索伦·里斯的研究也发现了一些迹象,表明类似的问题也可能出现在以同样方式训练的国际象棋AI中。他们识别出了一些“错误”的国际象棋走法——这些走法可能错失了绝杀机会,或者在残局中犯下失误——这些走法最初被AI的棋盘评估器评为高分。只是因为软件能够提前探索多个回合的后续分支,才得以避免这些失误。

对于许多尼姆棋盘配置而言,导向胜利的最优分支往往需要一直下到游戏的终点才能体现其价值。因此,这种通过提前预测来避免潜在失误的策略,在尼姆游戏中实施起来要困难得多。研究人员还指出,人类国际象棋棋手曾发现一些需要漫长走法链才能实现的绝杀组合,而这些组合往往被国际象棋AI完全忽视。

这些现象不禁让人思考:问题并非国际象棋中不存在类似挑战,而是尼姆类棋盘配置在国际象棋中相对罕见。或许,围棋游戏中AI的那些奇怪弱点,也同样可以用这个理论来解释。周贝和索伦·里斯认为:“AlphaZero擅长通过关联学习,但当问题需要某种符号推理,且这种推理无法从游戏状态与结果的关联中隐式学习时,它便会力不从心。”换言之,即使游戏的规则简单明了,能够推导出简单的行动准则,我们也不能指望Alpha系列AI的训练方式能让AI自动识别出这些准则。其结果,便是他们所称的“显著而灾难性的失败模式”。

那么,这一切为何如此重要?当前,许多研究者正积极探索AI在解决数学问题方面的潜力,而数学问题往往需要将棋盘配置(或特定数据结构)中的信息,外推为奇偶校验函数之类的通用规则,这正是符号推理的核心。虽然目前尚不清楚如何训练AI才能真正实现这种能力,但至少了解哪些方法是行不通的,无疑能为未来的研究指明方向,避免重复无效的尝试。我们正站在人工智能发展的新拐点,理解这些深层次的学习机制,将有助于我们构建更加智能、更加通用,也更加“理解”世界的AI系统。
图片说明

新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网 https://nmedialink.com/posts/7-line-nim-stumps-alphago-ai.html

评论(0)
暂无评论,快来抢沙发~
【快讯】曾横扫围棋界的谷歌AlphaGo系列AI,如今却在简单规则的“尼姆(Nim)”游戏中遭遇“滑铁卢”!最新研究揭示,AlphaGo系列AI的自我对弈训练方法,在处理需要符号推理的公平游戏时遭遇“灾难性失败”。研究发现,AI难以仅通过海量对弈掌握尼姆游戏背后的数学函数,棋盘复杂度稍增即性能停滞。这不仅暴露出AI的特定“盲区”,更警示其在医疗、金融等关键领域的可靠性挑战。该发现为未来AI研究指明方向,强调构建能实现符号推理的更通用智能系统至关重要。
发布于 2026-03-14
查看人数 166
人民币汇率走势
CNY
亚马逊热销榜
共 0 SKU 上次更新 NaN:NaN:NaN
类目: 切换分类
暂无数据
暂无数据
关注我们
NMedia
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。