Python 在经过培训的环境下,我如何评估特定州的政策?

Python 在经过培训的环境下,我如何评估特定州的政策?,python,reinforcement-learning,ray,Python,Reinforcement Learning,Ray,我已经在自定义环境中训练了一名Ray RLlib PPOTrainer。我如何评估特定州的政策 完整示例: from ray.rllib.agents.ppo import PPOTrainer from cust_env.envs import CustEnv from ray.tune.logger import pretty_print ray.init() config = ppo.DEFAULT_CONFIG.copy() config["num_workers"] = 2 conf

我已经在自定义环境中训练了一名Ray RLlib PPOTrainer。我如何评估特定州的政策

完整示例:

from ray.rllib.agents.ppo import PPOTrainer
from cust_env.envs import CustEnv
from ray.tune.logger import pretty_print

ray.init()
config = ppo.DEFAULT_CONFIG.copy()
config["num_workers"] = 2
config["eager"] = False
config["output"] = 'tmp/debug/'
trainer = PPOTrainer(config=config, env=TravelEnv)

# Can optionally call trainer.restore(path) to load a checkpoint.

for i in range(101):

   result = trainer.train()

   if i % 10 == 0:
       print(pretty_print(result))
有没有一种方法,像下面这样,我可以在给定的状态下返回最佳的操作

policy = trainer.get_policy()
optimal_action_at_state_S = policy.get_optimal_action(S)

函数
policy.compute\u actions()
似乎返回随机策略中的随机样本,而不是最佳操作。

根据我通过Ray dev Google group联系的Ray developer,目前实现这一点的唯一方法是使用自定义操作分布,其中方差设置为零。但是,他确实注意到,不久将添加一个改进的界面。

如果您编辑您的答案,使其包含一个最小的代码示例,以再现您想要的行为,包括导入,则您更有可能得到一个全面的答案。