Machine learning 如何根据rl中的外部随机条件设计奖励函数?

Machine learning 如何根据rl中的外部随机条件设计奖励函数?,machine-learning,reinforcement-learning,reward,Machine Learning,Reinforcement Learning,Reward,例如,我想使用RL来训练一个系统,使其在任何攻击下都具有鲁棒性。但是,攻击者可以在我的系统中选择任何点,奖励功能自然取决于选择的攻击点 由于攻击点的选择范围很广,我无法在计算奖励时直接列举所有选择,因此我可以随机抽样一些选择,并使用它们的平均/最大奖励作为奖励函数?还是有其他更好的方法来处理这种情况

例如,我想使用RL来训练一个系统,使其在任何攻击下都具有鲁棒性。但是,攻击者可以在我的系统中选择任何点,奖励功能自然取决于选择的攻击点

由于攻击点的选择范围很广,我无法在计算奖励时直接列举所有选择,因此我可以随机抽样一些选择,并使用它们的平均/最大奖励作为奖励函数?还是有其他更好的方法来处理这种情况