Machine learning 基于动作序列的神经网络训练

Machine learning 基于动作序列的神经网络训练,machine-learning,neural-network,Machine Learning,Neural Network,我一直在玩神经网络只是出于个人的好奇心和想学习。到目前为止,这是一个成功。我从零开始编写了一个代码,使用反向传播进行训练,并训练它玩tic-tac-toe(输出3x3矩阵,在正在玩的开放点中具有最高值)。它基于,但设计为允许多个隐藏层 训练数据是一个随机生成的游戏中间情境,为了监督学习,我手工编写了一个算法,用于对可能的动作进行排序,作为“正确”答案。经过数千次训练后,它在做出最佳动作方面表现得相当出色,并且可以打一整场比赛也相当出色(倾向于在中间开球,而你在角球时表现完美,但不管怎样) 不管怎

我一直在玩神经网络只是出于个人的好奇心和想学习。到目前为止,这是一个成功。我从零开始编写了一个代码,使用反向传播进行训练,并训练它玩tic-tac-toe(输出3x3矩阵,在正在玩的开放点中具有最高值)。它基于,但设计为允许多个隐藏层

训练数据是一个随机生成的游戏中间情境,为了监督学习,我手工编写了一个算法,用于对可能的动作进行排序,作为“正确”答案。经过数千次训练后,它在做出最佳动作方面表现得相当出色,并且可以打一整场比赛也相当出色(倾向于在中间开球,而你在角球时表现完美,但不管怎样)


不管怎么说,这一切都很好,但是对于训练来说,它需要我创建一个特定的算法来对任何给定游戏的每个动作进行排序,这很容易,因为tic-tac-toe非常简单,但这并不实用。我的下一个里程碑,将是能够训练它仅仅基于比赛的输赢。然而,这要求它记住一系列动作,然后不仅通过神经元,而且在游戏结束后通过一系列动作反向传播训练。我只是不知道从哪里开始,即使是指向正确的方向也会有所帮助。

我想有很多方法;一个是强化学习领域,其中一个常见的模型是马尔可夫决策过程(MDP):完美,正是我所寻找的,但我无法找到正确的搜索词;其中一个领域叫做强化学习,其中一个常见的模型是马尔可夫决策过程(MDP):完美,正是我所寻找的,但我无法正确地找到搜索词。