Machine learning 为什么bandit问题也称为强化学习中的一步/状态MDP？_Machine Learning_Reinforcement Learning_Markov Decision Process_Mdp_Bandit

Machine learning 为什么bandit问题也称为强化学习中的一步/状态MDP？

machine-learning

Machine learning 为什么bandit问题也称为强化学习中的一步/状态MDP？,machine-learning,reinforcement-learning,markov-decision-process,mdp,bandit,Machine Learning,Reinforcement Learning,Markov Decision Process,Mdp,Bandit,我们所说的一步/状态MDP（马尔可夫决策过程）是什么意思在bandit中，杠杆过去的拉力不会影响杠杆的输出或奖励奖励只取决于拉哪根杠杆，而不是过去所以只有一个州在bandit中，杠杆过去的拉力不会影响杠杆的输出或奖励奖励只取决于拉哪根杠杆，而不是过去所以只有一个州

我们所说的一步/状态MDP（马尔可夫决策过程）是什么意思

在bandit中，杠杆过去的拉力不会影响杠杆的输出或奖励

奖励只取决于拉哪根杠杆，而不是过去

所以只有一个州

在bandit中，杠杆过去的拉力不会影响杠杆的输出或奖励

奖励只取决于拉哪根杠杆，而不是过去

所以只有一个州 <>这正是土匪问题所在。

让我们考虑一个N动作1态MDP。无论你采取哪种行动，你都会保持同样的状态。不过，你会得到一个只取决于你采取的行动的奖励。如果您希望在这种环境下实现长期回报最大化，您需要做的只是判断n个可用选项（操作）中的哪一个是最好的

这正是土匪的问题所在