Machine learning 无函数逼近的梯度时间差λ

Machine learning 无函数逼近的梯度时间差λ,machine-learning,reinforcement-learning,temporal-difference,Machine Learning,Reinforcement Learning,Temporal Difference,在GTD(λ)的每一种形式中,似乎都用函数逼近来定义它,使用θ和一些权向量w 我知道对梯度方法的需求主要来自于线性函数逼近器的收敛特性,但我想利用GTD进行重要抽样 是否有可能在没有函数近似的情况下利用GTD?如果是这样,更新方程是如何形式化的?我理解,当你说“无函数近似”时,你的意思是将值函数V表示为一个表。在这种情况下,V的表格表示也可以看作是函数逼近器 例如,如果我们将近似值函数定义为: 然后,使用表格表示法,有与状态一样多的特征,给定状态s的特征向量对于除s之外的所有状态都为零(等于1

在GTD(λ)的每一种形式中,似乎都用函数逼近来定义它,使用θ和一些权向量w

我知道对梯度方法的需求主要来自于线性函数逼近器的收敛特性,但我想利用GTD进行重要抽样


是否有可能在没有函数近似的情况下利用GTD?如果是这样,更新方程是如何形式化的?

我理解,当你说“无函数近似”时,你的意思是将值函数V表示为一个表。在这种情况下,V的表格表示也可以看作是函数逼近器

例如,如果我们将近似值函数定义为:


然后,使用表格表示法,有与状态一样多的特征,给定状态s的特征向量对于除s之外的所有状态都为零(等于1),参数向量θ存储每个状态的值。因此,GTD以及其他算法可以在不做任何修改的情况下以表格的方式使用。

这正是我想要的,谢谢!我应该看到,θ可以通过使用k中的一个编码被解释为值函数。