Machine learning Q-学习（多目标）_Machine Learning_Artificial Intelligence_Reinforcement Learning_Reward_Q Learning

Machine learning Q-学习（多目标）

machine-learning artificial-intelligence

Machine learning Q-学习（多目标）,machine-learning,artificial-intelligence,reinforcement-learning,reward,q-learning,Machine Learning,Artificial Intelligence,Reinforcement Learning,Reward,Q Learning,我刚刚开始学习Q-learning，并看到了使用Q-learning解决我的问题的可能性问题：我应该检测数据的某个组合，我有四个矩阵作为系统的输入，我已经对输入进行了分类，每个输入可以是低L，也可以是高H。我需要检测某些类型的输入，例如LLLH、LLHH、HHHH等注: 1LLLH表示第一个输入为L，第二个输入为L，第三个输入为L，第四个输入为H！ 2我已将每种类型的输入类型标记为状态，例如LLLL为状态1，LLLH为状态2，依此类推我在Q-learning中研究的是，大多数情况下，你只有

我刚刚开始学习Q-learning，并看到了使用Q-learning解决我的问题的可能性

问题：我应该检测数据的某个组合，我有四个矩阵作为系统的输入，我已经对输入进行了分类，每个输入可以是低L，也可以是高H。我需要检测某些类型的输入，例如LLLH、LLHH、HHHH等

注: 1LLLH表示第一个输入为L，第二个输入为L，第三个输入为L，第四个输入为H！ 2我已将每种类型的输入类型标记为状态，例如LLLL为状态1，LLLH为状态2，依此类推

我在Q-learning中研究的是，大多数情况下，你只有一个目标，只有一个状态作为目标，这使得代理更容易从R矩阵学习和创建Q矩阵。现在在我的问题中，我有许多目标，许多状态作为目标，需要被检测。我不知道如何设计状态，如何通过有许多目标来创建奖励矩阵，以及代理如何学习。你能帮我在这种情况下如何使用Q-learning吗。考虑到我在20多个州有16个目标

正如我前面提到的，我知道什么是q学习，状态和目标是如何工作的，q_矩阵的计算，它是如何学习的。。。。但问题是现在我有很多目标，我真的不知道如何将我的问题与q-learning联系起来。。我需要多少州，以及如何标记奖励，因为我有很多目标

我需要帮助，至少我如何创建有许多目标的奖励矩阵

最简单的方法是对每个目标进行奖励，然后对这些奖励进行加权求和，得到总奖励

Rtot = w1 * R1 + w2 * R2 + ... + wn * Rn

然后，您可以决定如何衡量每个奖励，它会影响代理的最终行为，因为每次代理尝试学习不同的东西时

还有一种更为复杂的方法称为多维奖励RL或多准则RL。你可以用谷歌搜索它们并找到相关的论文。

多个目标正在调查中，因为它确实解决了一些关键的RL问题

这是一篇很棒的文章，目标是交付包裹或给电池充电。。。如果你不充电，送货将失败，但如果你不断充电，你将不会进行任何送货。这是这两个重要目标之间的平衡

作者通过TensorFlow中的逻辑和方法向您介绍：

多目标不应成为q-learning设置的障碍，只要您在给定状态下采取给定操作时具有正确的效用。然而，与只有一个目标相比，您可能需要更多的迭代来学习最佳策略。你的陈述中不清楚的是：1在给定状态下可能采取的行动是什么？2什么是国家？如果LLLH是一个状态，您最多有2*4=16个状态？？？正确，我有16个状态，其中15个是目标，n根据收到的输入将决定代理的下一步行动，例如，我们当前处于LLLH状态，收到的下一个输入是HLHL。。thn代理必须从状态LLLH目标状态移动到另一个目标状态HLHL。这就是我为什么感到困惑的原因，因为我不知道在每个州哪一个是最佳的行动，因为我有很多目标，我将采取的行动将取决于收到的输入！作为一个有效的动作，你能从任何一个状态转到另一个状态吗？或者您只能翻转LLLH中的1或2位？我这样问是因为如果你可以从任何一个州到任何一个州，那对我来说都没有意义。QS的最优策略A将与效用A成比例，因此我们不需要进行任何Q-learning.Yap从一个状态，您可以根据收到的输入值转到任何其他状态。。。这就是为什么我对如何在这种情况下实施q-learning感到困惑的原因！在这种情况下，你的效用仅仅取决于状态，还是效用回报也取决于什么行为将你带到状态？如果效用同时依赖于状态和动作，那么它可能是有意义的。否则，无论你现在处于哪个状态，为什么不跳到有最大回报的状态呢。