Machine learning 深度强化学习模型在状态相同的情况下也会采取不同的行动

Machine learning 深度强化学习模型在状态相同的情况下也会采取不同的行动,machine-learning,deep-learning,reinforcement-learning,Machine Learning,Deep Learning,Reinforcement Learning,我是DRL领域的初学者,一直在研究DRL模型。 这些天我一直在做推理,我给模型提供状态,看看模型采取了哪些行动 我将状态定义为三维Numpy数组并将其交给模型,每次运行代码时它都会返回不同的操作组合,即使它肯定是相同的状态 我的问题是DRL的行为是什么?还是听起来很奇怪 我只训练了5集,这会导致它吗 如果有人给我一些想法,我会感谢你。通常代理包括某种形式的探索(噪音),即使他们随机选择动作的组件。这会导致即使在同一状态下也对不同的操作进行采样。对于模型的评估,可以关闭探索噪音。这很有意义!我很感

我是DRL领域的初学者,一直在研究DRL模型。 这些天我一直在做推理,我给模型提供状态,看看模型采取了哪些行动

我将状态定义为三维Numpy数组并将其交给模型,每次运行代码时它都会返回不同的操作组合,即使它肯定是相同的状态

我的问题是DRL的行为是什么?还是听起来很奇怪

我只训练了5集,这会导致它吗


如果有人给我一些想法,我会感谢你。

通常代理包括某种形式的探索(噪音),即使他们随机选择动作的组件。这会导致即使在同一状态下也对不同的操作进行采样。对于模型的评估,可以关闭探索噪音。这很有意义!我很感激。