Deep learning 使用训练数据训练另一个模型

Deep learning 使用训练数据训练另一个模型,deep-learning,reinforcement-learning,Deep Learning,Reinforcement Learning,我正在NIPS 2017学习运行项目。我有有限的时间,我需要尝试2个模型(DDPG和软演员评论家)。模拟速度慢,需要花费太多时间。 我想知道, 在我训练其中一个之后,是否可以使用它的状态动作奖励数据来训练另一个?如果您将未训练的SAC模型的Q表替换为训练过的DDPG的Q表,那么您将使用由DDPG方法生成的聚合策略。同样,将未经训练的DDPG模型的Q表替换为经过训练的SAC模型的Q表,将使其具有遵循SAC方法的收敛策略 若你们还并没有,你们应该检查哪些讨论和实验和DDPG和SAC之间的差异

我正在NIPS 2017学习运行项目。我有有限的时间,我需要尝试2个模型(DDPG和软演员评论家)。模拟速度慢,需要花费太多时间。 我想知道,
在我训练其中一个之后,是否可以使用它的状态动作奖励数据来训练另一个?

如果您将未训练的SAC模型的Q表替换为训练过的DDPG的Q表,那么您将使用由DDPG方法生成的聚合策略。同样,将未经训练的DDPG模型的Q表替换为经过训练的SAC模型的Q表,将使其具有遵循SAC方法的收敛策略

若你们还并没有,你们应该检查哪些讨论和实验和DDPG和SAC之间的差异