Machine learning 为什么bandit问题也称为强化学习中的一步/状态MDP?

Machine learning 为什么bandit问题也称为强化学习中的一步/状态MDP?,machine-learning,reinforcement-learning,markov-decision-process,mdp,bandit,Machine Learning,Reinforcement Learning,Markov Decision Process,Mdp,Bandit,我们所说的一步/状态MDP(马尔可夫决策过程)是什么意思 在bandit中,杠杆过去的拉力不会影响杠杆的输出或奖励 奖励只取决于拉哪根杠杆,而不是过去 所以只有一个州 在bandit中,杠杆过去的拉力不会影响杠杆的输出或奖励 奖励只取决于拉哪根杠杆,而不是过去 所以只有一个州

我们所说的一步/状态MDP(马尔可夫决策过程)是什么意思


在bandit中,杠杆过去的拉力不会影响杠杆的输出或奖励

奖励只取决于拉哪根杠杆,而不是过去


所以只有一个州

在bandit中,杠杆过去的拉力不会影响杠杆的输出或奖励

奖励只取决于拉哪根杠杆,而不是过去

所以只有一个州 <>这正是土匪问题所在。

让我们考虑一个N动作1态MDP。无论你采取哪种行动,你都会保持同样的状态。不过,你会得到一个只取决于你采取的行动的奖励。如果您希望在这种环境下实现长期回报最大化,您需要做的只是判断n个可用选项(操作)中的哪一个是最好的

这正是土匪的问题所在