谷歌AI玩家在星际争霸II中击败人类人工智能领域

　　据国外媒体报道，日前，谷歌(Google)旗下DeepMind公司开发的人工智能软件玩家在“星际争霸II”(Starcraft II)游戏中上击败了人类玩家——这在人工智能范畴尚属首例。

　　在YouTube和Twitch上播放的一系列游戏竞赛中，AI玩家连续10场击败人类玩家。在最后一场竞赛中，职业游戏玩家科明茨(Grzegorz “MaNa” Komincz)为人类攫取了一场成功。

　　DeepMind公司的研讨担任人大卫·西尔弗(David Silver)在竞赛完毕后表示：“人工智能在不同的游戏竞赛中获得的成果，成为人工智能开展的重要里程碑。我希望——虽然显然还有工作要做——将来的人们可能会回忆今天，并认识到这是人工智能系统潜在才能又迈出的重要一步。”

　　在电子游戏中打败人类看起来像是人工智能开展中的一场杂耍，但这其实是一个严重的研讨应战。像“星际争霸2”这样的游戏比棋类游戏(如国际象棋或围棋)更难玩。在电子游戏中，人工智能软件实体不能经过察看每一个棋子的运动来计算下一步的动作，他们必需实时作出反响。

　　这些要素看起来并不是DeepMind人工智能游戏玩家系统(AlphaStar)的主要障碍。首先，它击败了职业玩家达里奥“TLO”Wünsch，然后它开端应战科明茨。一系列竞赛最初于去年12月在DeepMind的伦敦总部举行，但今天对科明茨的最后一场竞赛提供了直播，这位职业玩家为人类带来了一场成功。

　　专业的星际争霸评论员形容AlphaStar的表现是“特殊的”和“超人的”。

　　在“星际争霸II”中，首先需求从同一张地图的不同位置开端，随后树立基地、锻炼军队和入侵敌人领土。AlphaStar特别擅长所谓的“微管理”(Micromanagement)，即在战场上快速果断地控制部队的才能。

　　虽然人类玩家有时能锻炼出更强大的军队，但AlphaZero仍能在近间隔击败他们。在一场游戏中，AlphaStar用一个快速挪动的“潜行者”(Stalker)汇集了法力。评论员凯文“鹿特丹”范德科形容它完成了“特殊的军队控制，这不是普通人平常所能看到的程度。”

　　在游戏竞赛完毕之后，科明茨表示：“假如我和任何人类对手竞赛，他们就不会以这么高的程度对‘潜行者’停止微操控。”

　　这一事情与我们从其他高级人工智能游戏玩家中看到的行为相照应。

　　去年，当OpenAI公司的AI玩家参与Dota 2的竞赛时，他们最终被人类玩家所击败。不过，当时业内专家点评指出，AI软件玩家表现出了优秀的明晰度和精确度，可以快速无误地做出判别，这也是人工智能玩家的优势所在。

　　专家们曾经开端分析这一次的游戏对决，并讨论AlphaStar能否取得了任何不公平的优势。人工智能玩家(软件实体)在某些方面表现不佳，例如，AI玩家每分钟停止的点击次数被限制。不过，与人类玩家不同的是，它可以一次查看整个地图，而不是手动导航。

　　DeepMind公司的研讨人员说，AI玩家实践上并未取得真正的优势，由于它在任何时分只专注于地图的一个局部。但是，正如游戏过程所显现，这并没有阻止AlphaStar同时在三个不同的区域纯熟地控制部队。评论员表示，这对人类玩家来说是不可能的。值得留意的是，当科明茨在直播的竞赛中击败AlphaStar时，AI正在运用一个受限的相机视图形式。

　　另外需求指出的是，这次和人工智能玩家对决的对手固然是职业玩家，但并不是世界冠军程度。参与竞赛的玩家TLO还必需完成星际争霸II中他所不熟习的竞赛。

　　撇开这一讨论不谈，专家们说，这场竞赛是人工智能向前迈出的重要一步。长期参与“星际争霸”人工智能场景研讨的研讨员戴夫·丘吉尔通知英国“卫报”：“我以为人工智能游戏软件实体所表现出的才能是一项严重成就，至少比我在人工智能研讨人员中听到的最悲观的猜想早一年。”

　　但是，丘吉尔也补充说，由于DeepMind还没有发布任何有关这项工作的研讨论文，因而很难判别出AlphaStar能否取得了任何技术上的飞跃。丘吉尔说：“我还没有读过这篇博客文章，也没有看到任何文件或技术细节来做出一个判别。”

　　佐治亚理工学院人工智能副教授马克·里德尔(Mark Riedl)说，他对游戏竞赛结果并不感到诧异，人工智能击败人类玩家只是“一个时间问题”。

　　里德尔补充说，他并不以为这场竞赛标明星际争霸II的确被人工智能玩家所降服。他表示，在过去直播的游戏中，AlphaStar被限制在窗口中，这消弭了人工智能的一些优势，“但我们看到的更大问题…是人工智能所学到的战略是脆弱的，当一个职业玩家把人工智玩家逼出温馨区时，人工智能就会解体。”

　　实践上，让人工智能玩家在电子游戏中击败人类，其最终目的是进步人工智能的锻炼办法，特别是发明出可以在相似星际争霸这样复杂的虚拟环境中运转的人工智能系统。

　　为了锻炼AlphaStar，DeepMind公司的研讨人员运用了一种称为强化学习的办法。AI软件实体为了到达某些目的(如获胜或仅仅是活着)，根本上是经过重复实验来玩这个游戏的。他们首先经过模拟人类玩家来学习，然后在游戏竞技竞赛中相互学习。在不同的AI软件实体中，强者生存，弱者被丢弃。DeepMind估量，它的每一个AlphaStar软件实体都以这种方式积聚了大约200年的游戏时间，随着游戏积聚，它们玩游戏的速度也越来越快。

　　DeepMind分明地知晓其展开这项工作的目的。“最重要的是，DeepMind的任务是构建一种通用的人工智能系统。”AlphaStar项目的担任人奥里尔·维尼亚尔斯(Oriol Vinyals)说，他指的是树立一个能执行人类所能完成的任何心理任务的人工智能软件实体。“要做到这一点，重要的是要对我们的人工智能软件实体在各种任务中的表现停止测评比照。”