来源:机器之心
在无限制德州扑克六人对决的比赛中,德扑AIPluribus成功战胜了五名专家级人类玩家。Pluribus由Facebook与卡耐基梅隆大学(CMU)共同开发,实现了前辈Libratus(冷扑大师)未能完成的任务,该研究已经登上了最新一期《科学》杂志。
六人无限制玩法是德州扑克最受欢迎的游戏方式,Facebook与CMU的成果是第一个在拥有两个(或以上)人类玩家的比赛中击败人类专业选手的AI。
年1月,由CMU学者NoamBrown、TuomasSandholm开发的人工智能程序Libratus在宾夕法尼亚州匹兹堡的Rivers赌场持续20天的1对1无限制德扑比赛中成功战胜了4名全球顶级职业玩家。这也成为了继围棋之后,又一个高难度游戏被AI攻陷的里程碑事件。年底,Libratus的论文也被《科学》杂志收录。
‘冷扑大师’使用大量算力和博弈论等方法来攻克信息不完整的纸牌游戏。该研究的另一篇论文《SafeandNestedSubgameSolvingforImperfect-InformationGames》也在当年成为了人工智能顶会NIPS的最佳论文。
卡耐基梅隆大学计算机科学教授TuomasSandholm(左)与他的门生,现任Facebook科学家NoamBrown
从1对1到玩转6人对决,人工智能经历了怎样的进步?‘虽然从二到六看起来是一个渐进的过程,但这实际上是一个巨大的挑战,’研究游戏与人工智能的纽约大学助理教授JulianTogelius表示。‘多人游戏方面的研究,此前在所有游戏中都未有出现。’
在‘冷扑大师’的基础之上,NoamBrown与TuomasSandholm提出的新算法Pluribus需要的算力更小。在为期12天,超过手牌的比赛中,Pluribus击败了15名人类顶级玩家。‘很多AI研究者此前都认为实现这样的目标是不可能的,’NoamBrown表示。
几十年来,扑克一直是人工智能领域一个困难而又重要的挑战。原因在于,扑克中含有隐藏信息,也就是说,你无法知道对方的牌。要想在扑克中获胜,你需要bluff(吓唬)或者使用其他策略,这在棋类比赛中一般是不需要的。这一点使得在扑克中应用人工智能变得非常困难。
现在的人工智能已经学会了bluff,而且还可以看穿人类选手的bluff。不过在NoamBrown看来,这些技巧也是由数学过程决定的策略。
据介绍,Facebook和卡内基梅隆大学设计的比赛分为两种模式:1个AI+5个人类玩家和5个AI+1个人类玩家,Pluribus在这两种模式中都取得了胜利。如果一个筹码值1美元,Pluribus平均每局能赢5美元,与5个人类玩家对战一小时就能赢美元。职业扑克玩家认为这些结果是决定性的胜利优势。
这是AI首次在玩家人数(或队伍)大于2的大型基准游戏中击败顶级职业玩家。以下是关于Pluribus的细节。
论文:SuperhumanAIformultiplayerpoker
论文链接:
转载请注明:http://www.0431gb208.com/sjszlff/2298.html