Machine learning 深度强化学习模型在状态相同的情况下也会采取不同的行动_Machine Learning_Deep Learning_Reinforcement Learning

Machine learning 深度强化学习模型在状态相同的情况下也会采取不同的行动

machine-learning deep-learning

Machine learning 深度强化学习模型在状态相同的情况下也会采取不同的行动,machine-learning,deep-learning,reinforcement-learning,Machine Learning,Deep Learning,Reinforcement Learning,我是DRL领域的初学者，一直在研究DRL模型。这些天我一直在做推理，我给模型提供状态，看看模型采取了哪些行动我将状态定义为三维Numpy数组并将其交给模型，每次运行代码时它都会返回不同的操作组合，即使它肯定是相同的状态我的问题是DRL的行为是什么？还是听起来很奇怪我只训练了5集，这会导致它吗如果有人给我一些想法，我会感谢你。通常代理包括某种形式的探索（噪音），即使他们随机选择动作的组件。这会导致即使在同一状态下也对不同的操作进行采样。对于模型的评估，可以关闭探索噪音。这很有意义！我很感

我是DRL领域的初学者，一直在研究DRL模型。这些天我一直在做推理，我给模型提供状态，看看模型采取了哪些行动

我将状态定义为三维Numpy数组并将其交给模型，每次运行代码时它都会返回不同的操作组合，即使它肯定是相同的状态

我的问题是DRL的行为是什么？还是听起来很奇怪

我只训练了5集，这会导致它吗

如果有人给我一些想法，我会感谢你。

通常代理包括某种形式的探索（噪音），即使他们随机选择动作的组件。这会导致即使在同一状态下也对不同的操作进行采样。对于模型的评估，可以关闭探索噪音。这很有意义！我很感激。