Artificial intelligence 具有Alpha-Beta修剪的游戏Minmax代理的良好评估函数

Artificial intelligence 具有Alpha-Beta修剪的游戏Minmax代理的良好评估函数,artificial-intelligence,heuristics,alpha-beta-pruning,game-theory,minmax,Artificial Intelligence,Heuristics,Alpha Beta Pruning,Game Theory,Minmax,我正在尝试使用alpha-beta修剪为特定的零和棋盘游戏构建一个AI代理。由于某些时间限制,该计划的深度有限,因此我需要一个好的评估函数来使用。游戏内容如下 这是一个两人游戏,每个人都试图最大限度地发挥自己的潜力 从随机放在盒子里的一批糖果中分享。盒子是空的 分为多个单元格,每个单元格要么是空的,要么是满的 一种特殊类型的糖果。在每个游戏开始时,所有的单元格都是 装满了糖果。玩家轮流玩,可以选择一个单元格 按自己的顺序包装并领取所有相同类型的糖果,共 通过水平和垂直方向连接到选定单元格的单元格

我正在尝试使用alpha-beta修剪为特定的零和棋盘游戏构建一个AI代理。由于某些时间限制,该计划的深度有限,因此我需要一个好的评估函数来使用。游戏内容如下

这是一个两人游戏,每个人都试图最大限度地发挥自己的潜力 从随机放在盒子里的一批糖果中分享。盒子是空的 分为多个单元格,每个单元格要么是空的,要么是满的 一种特殊类型的糖果。在每个游戏开始时,所有的单元格都是 装满了糖果。玩家轮流玩,可以选择一个单元格 按自己的顺序包装并领取所有相同类型的糖果,共 通过水平和垂直方向连接到选定单元格的单元格 垂直路径。对于每一次选择或移动,代理都会获得奖励 数字值,该值为索赔的糖果数量的平方 这一举动。一旦特工从牢房里取出糖果,它们就空了 这个地方会被其他糖果填满(它们会掉下来) 由于重力),如有。在这个游戏中,游戏中不添加糖果 游戏性。因此,玩家一直玩到所有糖果都被认领为止


鉴于以上的游戏性,有人能帮我得到一个好的评估功能的游戏?我想到的一个想法是,作为一个启发式/评估函数,从给定的board状态中获得最大数量的果实。然而,这并不是一个很好的评估函数。有什么更好的吗?

看看和你自己(或其他人)比赛,在你学会比赛后,看看你想最大化什么。然后,您可能想使用两个不同的求值函数来制作一个与自身对抗的程序,并检查哪个求值函数更好。@user31264,我想到了这种方法,但是,我现在没有多个求值函数。征求建议也是如此。我可以通过让经纪人与自己较量来确定他们的排名。最明显的评估函数是每个球员已经得分多少(他们得分之间的差异)。如果我错了,请纠正我,但评估函数理想地让我们感觉到当前状态实际上有多好。使用两名球员迄今为止的得分并不能说明这一点。看看和你自己(或另一个人)比赛,在你学会比赛后,看看你想最大化什么。然后,您可能想使用两个不同的求值函数来制作一个与自身对抗的程序,并检查哪个求值函数更好。@user31264,我想到了这种方法,但是,我现在没有多个求值函数。征求建议也是如此。我可以通过让经纪人与自己较量来确定他们的排名。最明显的评估函数是每个球员已经得分多少(他们得分之间的差异)。如果我错了,请纠正我,但评估函数理想地让我们感觉到当前状态实际上有多好。根据两名球员迄今为止的得分来看,这并没有任何迹象。