Machine learning 强化学习是否适用于随机环境?

Machine learning 强化学习是否适用于随机环境?,machine-learning,reinforcement-learning,Machine Learning,Reinforcement Learning,我有一个关于强化学习RL在我们试图解决的问题上的适用性的基本问题 我们正在尝试使用RL进行库存管理——在需求完全随机的情况下,它可能在现实生活中有一种模式,但现在让我们假设我们被迫将其视为纯粹随机的 据我所知,RL可以帮助学习如何玩游戏,比如下棋,或者帮助机器人学习走路。但所有的游戏都有规则,OpenAI健身房的“推车杆”也有规则——有“物理”规则来控制推车杆何时会倾斜和摔倒 对于我们的问题,没有任何规则——环境会随产品需求的变化而随机变化 RL真的适用于这种情况吗 如果确实如此,那么什么将提高

我有一个关于强化学习RL在我们试图解决的问题上的适用性的基本问题

我们正在尝试使用RL进行库存管理——在需求完全随机的情况下,它可能在现实生活中有一种模式,但现在让我们假设我们被迫将其视为纯粹随机的

据我所知,RL可以帮助学习如何玩游戏,比如下棋,或者帮助机器人学习走路。但所有的游戏都有规则,OpenAI健身房的“推车杆”也有规则——有“物理”规则来控制推车杆何时会倾斜和摔倒

对于我们的问题,没有任何规则——环境会随产品需求的变化而随机变化

RL真的适用于这种情况吗

如果确实如此,那么什么将提高性能

进一步详情: -“环境”中仅有的两个刺激因素是产品“X”的当前可用水平和当前需求“Y” -“动作”是二进制的——我是要订购一个数量“Q”来重新填充还是不离散动作空间。 -我们正在使用DQN和Adam优化器

我们的成绩很差——我承认我只训练了大约5000或10000次——我应该让它训练几天,因为这是一个随机的环境吗

多谢各位
拉杰什

你说的是非平稳意义上的随机,所以,不,RL在这里不是最好的

强化学习假设您的环境是静止的。在整个学习过程中,环境的潜在概率分布(包括转换函数和奖励函数)必须保持不变

当然,RL和DRL可以处理一些轻微的非平稳问题,但它很难做到这一点。马尔可夫决策过程MDP和部分可观测MDP具有平稳性。因此,基于价值的算法,专门用于开发类似MDP的环境,如SARSA、Q-learning、DQN、DDQN、Dueling DQN等,将很难在非平稳环境中学习任何东西。您越倾向于基于策略的算法,如PPO、TRPO,或者更好的无梯度算法,如GA、CEM等,您就越有可能获得更好的机会,因为这些算法不会试图利用这一假设。此外,调整学习率对于确保代理永不停止学习至关重要


你最好的选择是采用黑箱优化方法,如遗传算法等。

你说的是非平稳意义上的随机,因此,不,RL不是这里最好的

强化学习假设您的环境是静止的。在整个学习过程中,环境的潜在概率分布(包括转换函数和奖励函数)必须保持不变

当然,RL和DRL可以处理一些轻微的非平稳问题,但它很难做到这一点。马尔可夫决策过程MDP和部分可观测MDP具有平稳性。因此,基于价值的算法,专门用于开发类似MDP的环境,如SARSA、Q-learning、DQN、DDQN、Dueling DQN等,将很难在非平稳环境中学习任何东西。您越倾向于基于策略的算法,如PPO、TRPO,或者更好的无梯度算法,如GA、CEM等,您就越有可能获得更好的机会,因为这些算法不会试图利用这一假设。此外,调整学习率对于确保代理永不停止学习至关重要


你最好的选择是采用黑盒优化方法,如遗传算法等。

随机性可以通过将单个平均奖励输出替换为具有可能值的分布来处理。通过引入一个新的学习规则,反映了从贝尔曼平均方程到其分布对应方程的转变,已经能够超越所有其他可比方法的性能


随机性可以通过将单个平均奖励输出替换为具有可能值的分布来处理。通过引入一个新的学习规则,反映了从贝尔曼平均方程到其分布对应方程的转变,已经能够超越所有其他可比方法的性能


如果它是纯随机的,那么就不是!纯粹随机数的分布是均匀的,所以除了掷骰子,没有什么可以学的。足够大数定律。。。对产品的需求不是随机的。嗨,艾哈迈德,谢谢你的回复。是的,我也认为需求将有一个基本模式。然而,让我们假设我们被迫使用随机的“需求”分布。我的问题将有助于澄清一般情况——如果RL适用于纯随机环境。如果它是纯随机环境,则不适用!纯粹随机数的分布是均匀的,所以除了掷骰子,没有什么可以学的。足够大数定律。。。对产品的需求不是随机的 艾哈迈德-谢谢你的回复。是的,我也认为需求将有一个基本模式。然而,让我们假设我们被迫使用随机的“需求”分布。我的问题将有助于澄清一般情况——RL是否适用于纯随机环境。