Python 强化学习DQN环境结构

Python 强化学习DQN环境结构,python,deep-learning,reinforcement-learning,dqn,Python,Deep Learning,Reinforcement Learning,Dqn,我想知道如何最好地将我的DQN代理对其环境所做的更改反馈给它自己 我有一个电池模型,代理可以观察17个步骤和5个功能的时间序列预测。然后决定是充电还是放电 我想将其当前的充电状态(空、半满、满等)包含在其观察空间中(即,在我给它提供的(17,5)数据帧中的某个位置) 我有几个选项,我可以将一整列设置为荷电状态值,或者将整行设置为荷电状态值,或者将整个数据帧展平并将一个值设置为荷电状态值 这些都是不明智的吗?对我来说,将整列设置为单个值似乎有点初级,但它是否真的会影响性能?当我计划使用conv或l

我想知道如何最好地将我的DQN代理对其环境所做的更改反馈给它自己

我有一个电池模型,代理可以观察17个步骤和5个功能的时间序列预测。然后决定是充电还是放电

我想将其当前的充电状态(空、半满、满等)包含在其观察空间中(即,在我给它提供的(17,5)数据帧中的某个位置)

我有几个选项,我可以将一整列设置为荷电状态值,或者将整行设置为荷电状态值,或者将整个数据帧展平并将一个值设置为荷电状态值


这些都是不明智的吗?对我来说,将整列设置为单个值似乎有点初级,但它是否真的会影响性能?当我计划使用conv或lstm层时,我会小心地将整个对象展平(尽管当前的模型只是密集层).

您不希望添加在状态表示中重复的不必要功能,因为当您希望将模型缩放到更大的输入大小时(如果在您的计划中),这可能会妨碍您的RL代理收敛

此外,关于在状态表示中要提供多少信息的决定主要是实验性的。最好的启动方式是只给出一个值作为电池状态。但是如果模型不收敛,那么也许你可以尝试你在问题中提到的其他选项