Python 强化学习DQN环境结构_Python_Deep Learning_Reinforcement Learning_Dqn

Python 强化学习DQN环境结构

python deep-learning

Python 强化学习DQN环境结构,python,deep-learning,reinforcement-learning,dqn,Python,Deep Learning,Reinforcement Learning,Dqn,我想知道如何最好地将我的DQN代理对其环境所做的更改反馈给它自己我有一个电池模型，代理可以观察17个步骤和5个功能的时间序列预测。然后决定是充电还是放电我想将其当前的充电状态（空、半满、满等）包含在其观察空间中（即，在我给它提供的（17,5）数据帧中的某个位置）我有几个选项，我可以将一整列设置为荷电状态值，或者将整行设置为荷电状态值，或者将整个数据帧展平并将一个值设置为荷电状态值这些都是不明智的吗？对我来说，将整列设置为单个值似乎有点初级，但它是否真的会影响性能？当我计划使用conv或l

我想知道如何最好地将我的DQN代理对其环境所做的更改反馈给它自己

我有一个电池模型，代理可以观察17个步骤和5个功能的时间序列预测。然后决定是充电还是放电

我想将其当前的充电状态（空、半满、满等）包含在其观察空间中（即，在我给它提供的（17,5）数据帧中的某个位置）

我有几个选项，我可以将一整列设置为荷电状态值，或者将整行设置为荷电状态值，或者将整个数据帧展平并将一个值设置为荷电状态值

这些都是不明智的吗？对我来说，将整列设置为单个值似乎有点初级，但它是否真的会影响性能？当我计划使用conv或lstm层时，我会小心地将整个对象展平（尽管当前的模型只是密集层）.

您不希望添加在状态表示中重复的不必要功能，因为当您希望将模型缩放到更大的输入大小时（如果在您的计划中），这可能会妨碍您的RL代理收敛

此外，关于在状态表示中要提供多少信息的决定主要是实验性的。最好的启动方式是只给出一个值作为电池状态。但是如果模型不收敛，那么也许你可以尝试你在问题中提到的其他选项