Deep learning 强化学习：代理vs网络vs模型vs策略_Deep Learning_Neural Network_Reinforcement Learning

Deep learning 强化学习：代理vs网络vs模型vs策略

deep-learning neural-network

Deep learning 强化学习：代理vs网络vs模型vs策略,deep-learning,neural-network,reinforcement-learning,Deep Learning,Neural Network,Reinforcement Learning,不同的RL图书馆和论文往往会混淆这些术语：代理、网络、模型和策略。我正在尝试使用多代理RL，每个代理使用多个网络，可能是以分层方式。因此，我想先澄清一下这些术语之间的区别。请阅读我目前对这些条款的理解，并让我知道我是否理解正确（如果有）我的理解如下：代理人：在特定环境中观察和行动以获得最大回报的“主体”。（它可能有一个或多个神经网络，如果我选择非深度学习方法，甚至没有神经网络。）模型：训练一个代理所得到的数学模型。它不一定是神经网络，因为我可以简单地使用线性回归方法。但是，由于我使用的

不同的RL图书馆和论文往往会混淆这些术语：代理、网络、模型和策略。我正在尝试使用多代理RL，每个代理使用多个网络，可能是以分层方式。因此，我想先澄清一下这些术语之间的区别。请阅读我目前对这些条款的理解，并让我知道我是否理解正确（如果有）

我的理解如下：

代理人：在特定环境中观察和行动以获得最大回报的“主体”。（它可能有一个或多个神经网络，如果我选择非深度学习方法，甚至没有神经网络。）
模型：训练一个代理所得到的数学模型。它不一定是神经网络，因为我可以简单地使用线性回归方法。但是，由于我使用的是deep-RL，一个模型意味着在我的工作中一个或多个神经网络的组合
神经网络：模仿人脑的数学模型。它是通过培训代理人而使用/产生的。一个代理可能有一个或多个，具体取决于其结构。（例如，AC网络技术上使用两个网络。此外，AlphaStar等复杂模型使用10多个网络作为单个代理。）
策略：根据马尔可夫决策过程，它可以简单地解释为选择给定状态的动作的概率数组。对于深度RL，网络确定代理的策略（即概率）

我感谢你的帮助/评论。谢谢