毕业论文
您现在的位置: 游戏在线 >> 游戏在线介绍 >> 正文 >> 正文

当博弈论遇上机器学习一文读懂相关理论

来源:游戏在线 时间:2022/10/28

机器之心原创

作者:王子嘉

编辑:JoniZhong

博弈论和机器学习能擦出怎样的火花?本文作者王子嘉通过回顾总结近年来博弈论和机器学习领域的交叉研究工作,为读者展示了这一领域最新的研究图景。

「博弈论」这个词可能对于一些仅仅致力于机器学习前沿算法的人并不算熟悉。其实,有意无意的,博弈论的思想一直存在于很多机器学习的探索过程中,不管是经典的SVM,还是大火的GAN,这些模型的背后都有博弈论的影子。

近年来,随着机器学习的发展,机器学习要应用的场景越来越复杂,开始有人有意识的将博弈论与机器学习联系起来。总的来说,博弈论在机器学习研究中的作用主要有三个:(1)解释机器学习模型的原理与思想;(2)建立合适的学习策略;(3)预测人类参与者(人机交互时)的行为。基于这三个方面,本文首先解释了博弈论的基本概念及其如何解释机器学习中的一些模型,然后介绍了博弈论在Multi-AgentReinforcementLearning(MARL)中的应用,最后介绍了博弈论与机器学习结合所产生的新分支——博弈机器学习。

博弈论是什么

严格来说,博弈论主要是研究理性决策者之间的冲突与合作的数学模型。这个定义有些抽象,没接触过博弈论的人也很难很直观的从「博弈论」这个名字知晓博弈论到底是什么。这个词可以拆开来看,「博弈」这个词很多时候是出现在围棋、战争等场景中,再看一下博弈论的英文——「GameTheory」,那么博弈论就很好理解了,就是一个研究怎么合理玩好这个世界中存在的各种游戏的学科。

具体来说,博弈论涉及到的「游戏」主要可以根据5个特征分类:合作性(游戏中人是否可以与他人联合)、对称性(玩家们是否有相同的目标)、信息完整性(能否知道其他玩家的决策与动向)、同步性(玩家的动作是同时进行的,还是一个玩家的动作是在另一个玩家的动作之后的)以及零和性(一个玩家得分是否会导致另外一个玩家减分)。以台球(斯诺克)为例,这个游戏是无法与他人合作的(非合作性),玩家们具有相同的目标(将桌上的球按一定规则击入袋中,对称性),玩家可以知道对面玩家的动向(信息完整性),每个玩家需要在另一个玩家击球失败后开始自己的击球(非同步性),因为红球数是一定的,从某种程度上来说,一个玩家的得分会导致另外一个玩家得分期望的减少,故而本游戏是零和游戏。基于这些分类,不同的方法论可以应用在不同的游戏中,比如纳什均衡(后文会解释)在对称性游戏中更容易达到。

要注意的是,这里的「游戏」不一定只指传统意义上的游戏,如下图所示,它包括很多方面。很多问题都可以被看作是「游戏」,这在本质上跟人工智能就是互通的了——AI的终极目的就是让电脑也能玩转人类正在玩或者将要开始玩的一些游戏。看一下下图,博弈论所研究的领域与AI正在研究的领域何其相似,再回忆在民众间打响AI名声的AlphaGo,也正是从游戏着手,去学习人类的思考模式。所以当博弈论遇上机器学习,一些很奇妙的「化学反应」就会发生——解释了一些数学模型的意义、出现了一些新的探索方向,等等。

图源

转载请注明:http://www.0431gb208.com/sjszlfa/2236.html