Algorithm SARSA在强化学习中的应用_Algorithm_Machine Learning_Reinforcement Learning

Algorithm SARSA在强化学习中的应用

algorithm machine-learning

Algorithm SARSA在强化学习中的应用,algorithm,machine-learning,reinforcement-learning,Algorithm,Machine Learning,Reinforcement Learning,我在无模型强化学习中遇到了SARSA算法。具体来说，在每个状态下，您都会执行一个动作a，然后观察到一个新状态s' 我的问题是，如果你没有状态转移概率方程p{next state | current state=s0}，你怎么知道你的下一个状态是什么我的尝试：你是否只是简单地尝试一个动作，然后从环境中观察？通常是，您在环境中执行操作，环境会告诉您下一个状态是什么。通常是，您在环境中执行操作，环境会告诉您下一个状态是什么。是。基于代理经验，存储在动作值函数中，他的行为策略pi将动作a中的当前状态

我在无模型强化学习中遇到了SARSA算法。具体来说，在每个状态下，您都会执行一个动作

，然后观察到一个新状态

s'

我的问题是，如果你没有状态转移概率方程

p{next state | current state=s0}

，你怎么知道你的下一个状态是什么

我的尝试：你是否只是简单地尝试一个动作，然后从环境中观察？

通常是，您在环境中执行操作，环境会告诉您下一个状态是什么。

是。基于代理经验，存储在动作值函数中，他的行为策略pi将动作a中的当前状态s映射到下一个状态s'，然后映射到下一个动作a'

是的。基于代理经验，存储在动作值函数中，他的行为策略pi将动作a中的当前状态s映射到下一个状态s'，然后映射到下一个动作a'

在Q-学习和SARSA中使用了一种称为TD学习的技术，以避免学习转移概率

简言之，当您在SARSA中进行采样（即与系统交互）并收集数据样本（状态、动作、奖励、下一状态、下一动作）时，在使用样本更新模型参数时，会隐式考虑转移概率。例如，每次在当前状态下选择一个动作，然后获得奖励和新状态时，系统实际上会根据转移概率p（s'，r|a，s）生成奖励和新状态

你可以在这本书中找到一个简单的描述

人工智能是一种现代方法

在Q-学习和SARSA中使用了一种称为TD学习的技术来避免学习转移概率

你可以在这本书中找到一个简单的描述

人工智能是一种现代方法

为什么“通常”？：）在SARSA中，假设没有模型。你总是按照你当前的Q采取行动，观察环境给你的下一个状态，然后更新Q。为什么“通常”？：）在SARSA中，假设没有模型。你总是按照你当前的Q采取行动，观察环境给你的下一个状态，然后更新Q。