Machine learning 无函数逼近的梯度时间差λ_Machine Learning_Reinforcement Learning_Temporal Difference

Machine learning 无函数逼近的梯度时间差λ

machine-learning

Machine learning 无函数逼近的梯度时间差λ,machine-learning,reinforcement-learning,temporal-difference,Machine Learning,Reinforcement Learning,Temporal Difference,在GTD（λ）的每一种形式中，似乎都用函数逼近来定义它，使用θ和一些权向量w 我知道对梯度方法的需求主要来自于线性函数逼近器的收敛特性，但我想利用GTD进行重要抽样是否有可能在没有函数近似的情况下利用GTD？如果是这样，更新方程是如何形式化的？我理解，当你说“无函数近似”时，你的意思是将值函数V表示为一个表。在这种情况下，V的表格表示也可以看作是函数逼近器例如，如果我们将近似值函数定义为：然后，使用表格表示法，有与状态一样多的特征，给定状态s的特征向量对于除s之外的所有状态都为零（等于1

在GTD（λ）的每一种形式中，似乎都用函数逼近来定义它，使用θ和一些权向量w

我知道对梯度方法的需求主要来自于线性函数逼近器的收敛特性，但我想利用GTD进行重要抽样

是否有可能在没有函数近似的情况下利用GTD？如果是这样，更新方程是如何形式化的？

我理解，当你说“无函数近似”时，你的意思是将值函数V表示为一个表。在这种情况下，V的表格表示也可以看作是函数逼近器

例如，如果我们将近似值函数定义为：

然后，使用表格表示法，有与状态一样多的特征，给定状态s的特征向量对于除s之外的所有状态都为零（等于1），参数向量θ存储每个状态的值。因此，GTD以及其他算法可以在不做任何修改的情况下以表格的方式使用。

这正是我想要的，谢谢！我应该看到，θ可以通过使用k中的一个编码被解释为值函数。