Deep learning 强化学习:代理vs网络vs模型vs策略

Deep learning 强化学习:代理vs网络vs模型vs策略,deep-learning,neural-network,reinforcement-learning,Deep Learning,Neural Network,Reinforcement Learning,不同的RL图书馆和论文往往会混淆这些术语:代理、网络、模型和策略。 我正在尝试使用多代理RL,每个代理使用多个网络,可能是以分层方式。因此,我想先澄清一下这些术语之间的区别。请阅读我目前对这些条款的理解,并让我知道我是否理解正确(如果有) 我的理解如下: 代理人:在特定环境中观察和行动以获得最大回报的“主体”。(它可能有一个或多个神经网络,如果我选择非深度学习方法,甚至没有神经网络。) 模型:训练一个代理所得到的数学模型。它不一定是神经网络,因为我可以简单地使用线性回归方法。但是,由于我使用的

不同的RL图书馆和论文往往会混淆这些术语:代理、网络、模型和策略。 我正在尝试使用多代理RL,每个代理使用多个网络,可能是以分层方式。因此,我想先澄清一下这些术语之间的区别。请阅读我目前对这些条款的理解,并让我知道我是否理解正确(如果有)

我的理解如下:

  • 代理人:在特定环境中观察和行动以获得最大回报的“主体”。(它可能有一个或多个神经网络,如果我选择非深度学习方法,甚至没有神经网络。)
  • 模型:训练一个代理所得到的数学模型。它不一定是神经网络,因为我可以简单地使用线性回归方法。但是,由于我使用的是deep-RL,一个模型意味着在我的工作中一个或多个神经网络的组合
  • 神经网络:模仿人脑的数学模型。它是通过培训代理人而使用/产生的。一个代理可能有一个或多个,具体取决于其结构。(例如,AC网络技术上使用两个网络。此外,AlphaStar等复杂模型使用10多个网络作为单个代理。)
  • 策略:根据马尔可夫决策过程,它可以简单地解释为选择给定状态的动作的概率数组。对于深度RL,网络确定代理的策略(即概率)
我感谢你的帮助/评论。谢谢