Machine learning 麻省理工学院深度流量挑战中的奖励功能？_Machine Learning_Reinforcement Learning_Reward

Machine learning 麻省理工学院深度流量挑战中的奖励功能？

machine-learning

Machine learning 麻省理工学院深度流量挑战中的奖励功能？,machine-learning,reinforcement-learning,reward,Machine Learning,Reinforcement Learning,Reward,我一直在玩弄那些小家伙也在对体系结构有了一个大致的了解之后，我想知道环境给予的奖励函数到底是什么是否与gridcell的输入相同（最大行驶速度）他们是否使用奖励剪辑我还发现了这个javascript，这对我的理解也没有什么帮助。奖励是按时间间隔内的平均速度缩放： [-3,3] deeptraffic环境的实现位于以下文件中：我正在努力使它可读。这是WIP的一个：只是为了完成这一切。正如你在上面提到的等式中所看到的，不涉及奖励剪辑。 var reward = (avgSp

我一直在玩弄那些小家伙也

在对体系结构有了一个大致的了解之后，我想知道环境给予的奖励函数到底是什么

是否与gridcell的输入相同（最大行驶速度）

他们是否使用奖励剪辑

我还发现了这个javascript，这对我的理解也没有什么帮助。

奖励是按时间间隔内的平均速度缩放： [-3,3]

deeptraffic环境的实现位于以下文件中：

我正在努力使它可读。这是WIP的一个：

只是为了完成这一切。正如你在上面提到的等式中所看到的，不涉及奖励剪辑。

    var reward = (avgSpeedMeasurement - 60) / 20;