Python 在经过培训的环境下，我如何评估特定州的政策？_Python_Reinforcement Learning_Ray

Python 在经过培训的环境下，我如何评估特定州的政策？

python

Python 在经过培训的环境下，我如何评估特定州的政策？,python,reinforcement-learning,ray,Python,Reinforcement Learning,Ray,我已经在自定义环境中训练了一名Ray RLlib PPOTrainer。我如何评估特定州的政策完整示例： from ray.rllib.agents.ppo import PPOTrainer from cust_env.envs import CustEnv from ray.tune.logger import pretty_print ray.init() config = ppo.DEFAULT_CONFIG.copy() config["num_workers"] = 2 conf

我已经在自定义环境中训练了一名Ray RLlib PPOTrainer。我如何评估特定州的政策

完整示例：

from ray.rllib.agents.ppo import PPOTrainer
from cust_env.envs import CustEnv
from ray.tune.logger import pretty_print

ray.init()
config = ppo.DEFAULT_CONFIG.copy()
config["num_workers"] = 2
config["eager"] = False
config["output"] = 'tmp/debug/'
trainer = PPOTrainer(config=config, env=TravelEnv)

# Can optionally call trainer.restore(path) to load a checkpoint.

for i in range(101):

   result = trainer.train()

   if i % 10 == 0:
       print(pretty_print(result))

有没有一种方法，像下面这样，我可以在给定的状态下返回最佳的操作

policy = trainer.get_policy()
optimal_action_at_state_S = policy.get_optimal_action(S)

函数

policy.compute\u actions（）

似乎返回随机策略中的随机样本，而不是最佳操作。

根据我通过Ray dev Google group联系的Ray developer，目前实现这一点的唯一方法是使用自定义操作分布，其中方差设置为零。但是，他确实注意到，不久将添加一个改进的界面。

如果您编辑您的答案，使其包含一个最小的代码示例，以再现您想要的行为，包括导入，则您更有可能得到一个全面的答案。