Neural network 神经网络权值无目标更新_Neural Network_Reinforcement Learning

Neural network 神经网络权值无目标更新

neural-network

Neural network 神经网络权值无目标更新,neural-network,reinforcement-learning,Neural Network,Reinforcement Learning,我正在尝试创建一个前馈神经网络来学习打扑克。我有很多扑克游戏的数据（几十万手）问题是，在扑克游戏中，赢多少钱没有目标值，利润超过0是好的，但这不是目标。有可能是你所有筹码下注并赢得最大金额的目标利润，但几乎所有的手都有赢/输，这与此相去甚远，所以我想避免这种情况在过去，我只遇到使用偏离目标值的权重更新技术。如果利润高于0会鼓励做出决定，而利润低于0会阻碍做出决定，那么我可以使用什么方法？你能举一个扑克手数据的例子吗？我不同意你关于赢扑克没有目标值的说法。扑克中绝对有价值观，超过几千只手就意味

我正在尝试创建一个前馈神经网络来学习打扑克。我有很多扑克游戏的数据（几十万手）

问题是，在扑克游戏中，赢多少钱没有目标值，利润超过0是好的，但这不是目标。有可能是你所有筹码下注并赢得最大金额的目标利润，但几乎所有的手都有赢/输，这与此相去甚远，所以我想避免这种情况

在过去，我只遇到使用偏离目标值的权重更新技术。如果利润高于0会鼓励做出决定，而利润低于0会阻碍做出决定，那么我可以使用什么方法？

你能举一个扑克手数据的例子吗？我不同意你关于赢扑克没有目标值的说法。扑克中绝对有价值观，超过几千只手就意味着一个获胜的策略。也许我误解了你的观点，但你可以从手记中提取一些价值观，这些价值观表明了一个成功的策略。分析你的手牌历史记录，你会注意到最佳策略，如在位置上打球、进攻性打球、根据位置选择手牌范围（晚打更宽、早打更紧）等。不要担心最终结果，专注于什么是好的制胜球。你已经用“强化学习”标记了你的问题。所以我想你已经知道答案了…@vathek很抱歉我的流量回复，我在上班吃午饭的时候发了这个，直到现在才回复。从一组游戏的数据中，我选择一名玩家，并从该游戏中确定扑克手的数据，包括到目前为止，本轮和前几轮投注中每个人的加薪和电话。我计算我的手击打随机手的概率。还有很多其他的变量，比如罐子的大小。我对所有这些变量进行了离散化，因此，例如，击打随机手的概率为0-20%、21-40%、81-100%。@rcpinto我发现强化学习方法不适用。它们都适用于我可以一次又一次地玩扑克牌并做出不同决定的情况。但是我不能，每一手牌只能玩一次，并且下注的决定已经在数据集中指定。你能举一个你的扑克手数据的例子吗？我不同意你关于赢牌没有目标值的说法。扑克中绝对有价值观，超过几千只手就意味着一个获胜的策略。也许我误解了你的观点，但你可以从手记中提取一些价值观，这些价值观表明了一个成功的策略。分析你的手牌历史记录，你会注意到最佳策略，如在位置上打球、进攻性打球、根据位置选择手牌范围（晚打更宽、早打更紧）等。不要担心最终结果，专注于什么是好的制胜球。你已经用“强化学习”标记了你的问题。所以我想你已经知道答案了…@vathek很抱歉我的流量回复，我在上班吃午饭的时候发了这个，直到现在才回复。从一组游戏的数据中，我选择一名玩家，并从该游戏中确定扑克手的数据，包括到目前为止，本轮和前几轮投注中每个人的加薪和电话。我计算我的手击打随机手的概率。还有很多其他的变量，比如罐子的大小。我对所有这些变量进行了离散化，因此，例如，击打随机手的概率为0-20%、21-40%、81-100%。@rcpinto我发现强化学习方法不适用。它们都适用于我可以一次又一次地玩扑克牌并做出不同决定的情况。但我不能，每手牌只能玩一次，下注的决定已经在数据集中指定了。