Neural network 如何在RL计划中设置即时奖励?

Neural network 如何在RL计划中设置即时奖励?,neural-network,artificial-intelligence,reinforcement-learning,Neural Network,Artificial Intelligence,Reinforcement Learning,我希望我的RL代理尽快达到目标,同时尽量减少它使用特定资源T的次数(虽然有时这是必要的) 我考虑将即时奖励设置为每一步-1,如果代理使用T,则额外增加-1,如果达到目标,则增加0 但是额外的-1是完全任意的,我如何决定代理使用T应该受到多少惩罚?你应该使用一个模仿你自己价值观的奖励函数。如果资源是昂贵的(对你来说是有价值的),那么消费它的惩罚应该是严厉的。时间也是如此(仔细想想,时间也是一种资源) 如果两种惩罚(一种是时间消耗,另一种是资源消耗)之间的比例与您对这些资源的价值是一致的,那么代理人

我希望我的RL代理尽快达到目标,同时尽量减少它使用特定资源T的次数(虽然有时这是必要的)

我考虑将即时奖励设置为每一步-1,如果代理使用T,则额外增加-1,如果达到目标,则增加0


但是额外的-1是完全任意的,我如何决定代理使用T应该受到多少惩罚?

你应该使用一个模仿你自己价值观的奖励函数。如果资源是昂贵的(对你来说是有价值的),那么消费它的惩罚应该是严厉的。时间也是如此(仔细想想,时间也是一种资源)

如果两种惩罚(一种是时间消耗,另一种是资源消耗)之间的比例与您对这些资源的价值是一致的,那么代理人的行为将完全符合您的利益。如果你弄错了(因为你可能不知道资源的精确成本,也不知道缓慢学习的精确成本),那么它将努力寻找一个伪最优的解决方案,而不是一个最优的解决方案,这在很多情况下是可以的