Neural network 神经网络权值无目标更新

Neural network 神经网络权值无目标更新,neural-network,reinforcement-learning,Neural Network,Reinforcement Learning,我正在尝试创建一个前馈神经网络来学习打扑克。我有很多扑克游戏的数据(几十万手) 问题是,在扑克游戏中,赢多少钱没有目标值,利润超过0是好的,但这不是目标。有可能是你所有筹码下注并赢得最大金额的目标利润,但几乎所有的手都有赢/输,这与此相去甚远,所以我想避免这种情况 在过去,我只遇到使用偏离目标值的权重更新技术。如果利润高于0会鼓励做出决定,而利润低于0会阻碍做出决定,那么我可以使用什么方法?你能举一个扑克手数据的例子吗?我不同意你关于赢扑克没有目标值的说法。扑克中绝对有价值观,超过几千只手就意味

我正在尝试创建一个前馈神经网络来学习打扑克。我有很多扑克游戏的数据(几十万手)

问题是,在扑克游戏中,赢多少钱没有目标值,利润超过0是好的,但这不是目标。有可能是你所有筹码下注并赢得最大金额的目标利润,但几乎所有的手都有赢/输,这与此相去甚远,所以我想避免这种情况


在过去,我只遇到使用偏离目标值的权重更新技术。如果利润高于0会鼓励做出决定,而利润低于0会阻碍做出决定,那么我可以使用什么方法?

你能举一个扑克手数据的例子吗?我不同意你关于赢扑克没有目标值的说法。扑克中绝对有价值观,超过几千只手就意味着一个获胜的策略。也许我误解了你的观点,但你可以从手记中提取一些价值观,这些价值观表明了一个成功的策略。分析你的手牌历史记录,你会注意到最佳策略,如在位置上打球、进攻性打球、根据位置选择手牌范围(晚打更宽、早打更紧)等。不要担心最终结果,专注于什么是好的制胜球。你已经用“强化学习”标记了你的问题。所以我想你已经知道答案了…@vathek很抱歉我的流量回复,我在上班吃午饭的时候发了这个,直到现在才回复。从一组游戏的数据中,我选择一名玩家,并从该游戏中确定扑克手的数据,包括到目前为止,本轮和前几轮投注中每个人的加薪和电话。我计算我的手击打随机手的概率。还有很多其他的变量,比如罐子的大小。我对所有这些变量进行了离散化,因此,例如,击打随机手的概率为0-20%、21-40%、81-100%。@rcpinto我发现强化学习方法不适用。它们都适用于我可以一次又一次地玩扑克牌并做出不同决定的情况。但是我不能,每一手牌只能玩一次,并且下注的决定已经在数据集中指定。你能举一个你的扑克手数据的例子吗?我不同意你关于赢牌没有目标值的说法。扑克中绝对有价值观,超过几千只手就意味着一个获胜的策略。也许我误解了你的观点,但你可以从手记中提取一些价值观,这些价值观表明了一个成功的策略。分析你的手牌历史记录,你会注意到最佳策略,如在位置上打球、进攻性打球、根据位置选择手牌范围(晚打更宽、早打更紧)等。不要担心最终结果,专注于什么是好的制胜球。你已经用“强化学习”标记了你的问题。所以我想你已经知道答案了…@vathek很抱歉我的流量回复,我在上班吃午饭的时候发了这个,直到现在才回复。从一组游戏的数据中,我选择一名玩家,并从该游戏中确定扑克手的数据,包括到目前为止,本轮和前几轮投注中每个人的加薪和电话。我计算我的手击打随机手的概率。还有很多其他的变量,比如罐子的大小。我对所有这些变量进行了离散化,因此,例如,击打随机手的概率为0-20%、21-40%、81-100%。@rcpinto我发现强化学习方法不适用。它们都适用于我可以一次又一次地玩扑克牌并做出不同决定的情况。但我不能,每手牌只能玩一次,下注的决定已经在数据集中指定了。