Machine learning Q-学习(多目标)

Machine learning Q-学习(多目标),machine-learning,artificial-intelligence,reinforcement-learning,reward,q-learning,Machine Learning,Artificial Intelligence,Reinforcement Learning,Reward,Q Learning,我刚刚开始学习Q-learning,并看到了使用Q-learning解决我的问题的可能性 问题:我应该检测数据的某个组合,我有四个矩阵作为系统的输入,我已经对输入进行了分类,每个输入可以是低L,也可以是高H。我需要检测某些类型的输入,例如LLLH、LLHH、HHHH等 注: 1LLLH表示第一个输入为L,第二个输入为L,第三个输入为L,第四个输入为H! 2我已将每种类型的输入类型标记为状态,例如LLLL为状态1,LLLH为状态2,依此类推 我在Q-learning中研究的是,大多数情况下,你只有

我刚刚开始学习Q-learning,并看到了使用Q-learning解决我的问题的可能性

问题:我应该检测数据的某个组合,我有四个矩阵作为系统的输入,我已经对输入进行了分类,每个输入可以是低L,也可以是高H。我需要检测某些类型的输入,例如LLLH、LLHH、HHHH等

注: 1LLLH表示第一个输入为L,第二个输入为L,第三个输入为L,第四个输入为H! 2我已将每种类型的输入类型标记为状态,例如LLLL为状态1,LLLH为状态2,依此类推

我在Q-learning中研究的是,大多数情况下,你只有一个目标,只有一个状态作为目标,这使得代理更容易从R矩阵学习和创建Q矩阵。现在在我的问题中,我有许多目标,许多状态作为目标,需要被检测。我不知道如何设计状态,如何通过有许多目标来创建奖励矩阵,以及代理如何学习。你能帮我在这种情况下如何使用Q-learning吗。考虑到我在20多个州有16个目标

正如我前面提到的,我知道什么是q学习,状态和目标是如何工作的,q_矩阵的计算,它是如何学习的。。。。但问题是现在我有很多目标,我真的不知道如何将我的问题与q-learning联系起来。。我需要多少州,以及如何标记奖励,因为我有很多目标

我需要帮助,至少我如何创建有许多目标的奖励矩阵

我需要帮助,至少我如何创建有许多目标的奖励矩阵

最简单的方法是对每个目标进行奖励,然后对这些奖励进行加权求和,得到总奖励

Rtot = w1 * R1 + w2 * R2 + ... + wn * Rn
然后,您可以决定如何衡量每个奖励,它会影响代理的最终行为,因为每次代理尝试学习不同的东西时


还有一种更为复杂的方法称为多维奖励RL或多准则RL。你可以用谷歌搜索它们并找到相关的论文。

多个目标正在调查中,因为它确实解决了一些关键的RL问题

这是一篇很棒的文章,目标是交付包裹或给电池充电。。。如果你不充电,送货将失败,但如果你不断充电,你将不会进行任何送货。这是这两个重要目标之间的平衡

作者通过TensorFlow中的逻辑和方法向您介绍:

多目标不应成为q-learning设置的障碍,只要您在给定状态下采取给定操作时具有正确的效用。然而,与只有一个目标相比,您可能需要更多的迭代来学习最佳策略。你的陈述中不清楚的是:1在给定状态下可能采取的行动是什么?2什么是国家?如果LLLH是一个状态,您最多有2*4=16个状态???正确,我有16个状态,其中15个是目标,n根据收到的输入将决定代理的下一步行动,例如,我们当前处于LLLH状态,收到的下一个输入是HLHL。。thn代理必须从状态LLLH目标状态移动到另一个目标状态HLHL。这就是我为什么感到困惑的原因,因为我不知道在每个州哪一个是最佳的行动,因为我有很多目标,我将采取的行动将取决于收到的输入!作为一个有效的动作,你能从任何一个状态转到另一个状态吗?或者您只能翻转LLLH中的1或2位?我这样问是因为如果你可以从任何一个州到任何一个州,那对我来说都没有意义。QS的最优策略A将与效用A成比例,因此我们不需要进行任何Q-learning.Yap从一个状态,您可以根据收到的输入值转到任何其他状态。。。这就是为什么我对如何在这种情况下实施q-learning感到困惑的原因!在这种情况下,你的效用仅仅取决于状态,还是效用回报也取决于什么行为将你带到状态?如果效用同时依赖于状态和动作,那么它可能是有意义的。否则,无论你现在处于哪个状态,为什么不跳到有最大回报的状态呢。