Deep learning 使用训练数据训练另一个模型_Deep Learning_Reinforcement Learning

Deep learning 使用训练数据训练另一个模型

deep-learning

Deep learning 使用训练数据训练另一个模型,deep-learning,reinforcement-learning,Deep Learning,Reinforcement Learning,我正在NIPS 2017学习运行项目。我有有限的时间，我需要尝试2个模型（DDPG和软演员评论家）。模拟速度慢，需要花费太多时间。我想知道，在我训练其中一个之后，是否可以使用它的状态动作奖励数据来训练另一个？如果您将未训练的SAC模型的Q表替换为训练过的DDPG的Q表，那么您将使用由DDPG方法生成的聚合策略。同样，将未经训练的DDPG模型的Q表替换为经过训练的SAC模型的Q表，将使其具有遵循SAC方法的收敛策略若你们还并没有，你们应该检查哪些讨论和实验和DDPG和SAC之间的差异

我正在NIPS 2017学习运行项目。我有有限的时间，我需要尝试2个模型（DDPG和软演员评论家）。模拟速度慢，需要花费太多时间。我想知道，

在我训练其中一个之后，是否可以使用它的状态动作奖励数据来训练另一个？

如果您将未训练的SAC模型的Q表替换为训练过的DDPG的Q表，那么您将使用由DDPG方法生成的聚合策略。同样，将未经训练的DDPG模型的Q表替换为经过训练的SAC模型的Q表，将使其具有遵循SAC方法的收敛策略

若你们还并没有，你们应该检查哪些讨论和实验和DDPG和SAC之间的差异