如何使用rllib中的Marwil为LSTM配置批处理

如何使用rllib中的Marwil为LSTM配置批处理,lstm,reinforcement-learning,ray,rllib,Lstm,Reinforcement Learning,Ray,Rllib,我正在尝试在rllib中使用Marwil来训练lstm策略。我找不到任何关于如何设置此问题的批次的示例。如果marwil模型没有lstm组件,我可以使用这里的说明来训练它 然而,当我尝试添加一个lstm组件时,我得到一个关于 “如果定义了状态输入,则必须给出seq_透镜张量” 我认为这意味着我需要传递一个RNN长度序列。我认为这很公平 prev_actions->事件中所有N点的20个过去动作列表 prev_rewards->本集所有N点过去20次奖励列表 上一次观察->事件中所有N个点的20

我正在尝试在rllib中使用Marwil来训练lstm策略。我找不到任何关于如何设置此问题的批次的示例。如果marwil模型没有lstm组件,我可以使用这里的说明来训练它

然而,当我尝试添加一个lstm组件时,我得到一个关于

“如果定义了状态输入,则必须给出seq_透镜张量”

我认为这意味着我需要传递一个RNN长度序列。我认为这很公平

prev_actions->事件中所有N点的20个过去动作列表 prev_rewards->本集所有N点过去20次奖励列表 上一次观察->事件中所有N个点的20次过去观察列表 seq_lens->[20,20,20,…,20]为该集的所有N个点

在batch builder API中,但一旦我尝试运行Marwil trainer,仍然会出现错误

如果定义了状态输入,则必须给出镜头张量

有人对此有什么见解吗

谢谢