Neural network 如何在RL计划中设置即时奖励？_Neural Network_Artificial Intelligence_Reinforcement Learning

Neural network 如何在RL计划中设置即时奖励？

neural-network artificial-intelligence

Neural network 如何在RL计划中设置即时奖励？,neural-network,artificial-intelligence,reinforcement-learning,Neural Network,Artificial Intelligence,Reinforcement Learning,我希望我的RL代理尽快达到目标，同时尽量减少它使用特定资源T的次数（虽然有时这是必要的）我考虑将即时奖励设置为每一步-1，如果代理使用T，则额外增加-1，如果达到目标，则增加0 但是额外的-1是完全任意的，我如何决定代理使用T应该受到多少惩罚？你应该使用一个模仿你自己价值观的奖励函数。如果资源是昂贵的（对你来说是有价值的），那么消费它的惩罚应该是严厉的。时间也是如此（仔细想想，时间也是一种资源）如果两种惩罚（一种是时间消耗，另一种是资源消耗）之间的比例与您对这些资源的价值是一致的，那么代理人

我希望我的RL代理尽快达到目标，同时尽量减少它使用特定资源T的次数（虽然有时这是必要的）

我考虑将即时奖励设置为每一步-1，如果代理使用T，则额外增加-1，如果达到目标，则增加0

但是额外的-1是完全任意的，我如何决定代理使用T应该受到多少惩罚？

你应该使用一个模仿你自己价值观的奖励函数。如果资源是昂贵的（对你来说是有价值的），那么消费它的惩罚应该是严厉的。时间也是如此（仔细想想，时间也是一种资源）

如果两种惩罚（一种是时间消耗，另一种是资源消耗）之间的比例与您对这些资源的价值是一致的，那么代理人的行为将完全符合您的利益。如果你弄错了（因为你可能不知道资源的精确成本，也不知道缓慢学习的精确成本），那么它将努力寻找一个伪最优的解决方案，而不是一个最优的解决方案，这在很多情况下是可以的