Algorithm SARSA在强化学习中的应用

Algorithm SARSA在强化学习中的应用,algorithm,machine-learning,reinforcement-learning,Algorithm,Machine Learning,Reinforcement Learning,我在无模型强化学习中遇到了SARSA算法。具体来说,在每个状态下,您都会执行一个动作a,然后观察到一个新状态s' 我的问题是,如果你没有状态转移概率方程p{next state | current state=s0},你怎么知道你的下一个状态是什么 我的尝试:你是否只是简单地尝试一个动作,然后从环境中观察? 通常是,您在环境中执行操作,环境会告诉您下一个状态是什么。通常是,您在环境中执行操作,环境会告诉您下一个状态是什么。是。基于代理经验,存储在动作值函数中,他的行为策略pi将动作a中的当前状态

我在无模型强化学习中遇到了SARSA算法。具体来说,在每个状态下,您都会执行一个动作
a
,然后观察到一个新状态
s'

我的问题是,如果你没有状态转移概率方程
p{next state | current state=s0}
,你怎么知道你的下一个状态是什么

我的尝试:你是否只是简单地尝试一个动作,然后从环境中观察?

通常是,您在环境中执行操作,环境会告诉您下一个状态是什么。

通常是,您在环境中执行操作,环境会告诉您下一个状态是什么。

是。基于代理经验,存储在动作值函数中,他的行为策略pi将动作a中的当前状态s映射到下一个状态s',然后映射到下一个动作a'


是的。基于代理经验,存储在动作值函数中,他的行为策略pi将动作a中的当前状态s映射到下一个状态s',然后映射到下一个动作a'


在Q-学习和SARSA中使用了一种称为TD学习的技术,以避免学习转移概率

简言之,当您在SARSA中进行采样(即与系统交互)并收集数据样本(状态、动作、奖励、下一状态、下一动作)时,在使用样本更新模型参数时,会隐式考虑转移概率。例如,每次在当前状态下选择一个动作,然后获得奖励和新状态时,系统实际上会根据转移概率p(s',r|a,s)生成奖励和新状态

你可以在这本书中找到一个简单的描述

人工智能是一种现代方法


在Q-学习和SARSA中使用了一种称为TD学习的技术来避免学习转移概率

简言之,当您在SARSA中进行采样(即与系统交互)并收集数据样本(状态、动作、奖励、下一状态、下一动作)时,在使用样本更新模型参数时,会隐式考虑转移概率。例如,每次在当前状态下选择一个动作,然后获得奖励和新状态时,系统实际上会根据转移概率p(s',r|a,s)生成奖励和新状态

你可以在这本书中找到一个简单的描述

人工智能是一种现代方法

为什么“通常”?:)在SARSA中,假设没有模型。你总是按照你当前的Q采取行动,观察环境给你的下一个状态,然后更新Q。为什么“通常”?:)在SARSA中,假设没有模型。你总是按照你当前的Q采取行动,观察环境给你的下一个状态,然后更新Q。