Machine learning 麻省理工学院深度流量挑战中的奖励功能?

Machine learning 麻省理工学院深度流量挑战中的奖励功能?,machine-learning,reinforcement-learning,reward,Machine Learning,Reinforcement Learning,Reward,我一直在玩弄那些小家伙 也 在对体系结构有了一个大致的了解之后,我想知道环境给予的奖励函数到底是什么 是否与gridcell的输入相同(最大行驶速度) 他们是否使用奖励剪辑 我还发现了这个javascript,这对我的理解也没有什么帮助。奖励是按时间间隔内的平均速度缩放: [-3,3] deeptraffic环境的实现位于以下文件中: 我正在努力使它可读。这是WIP的一个: 只是为了完成这一切。正如你在上面提到的等式中所看到的,不涉及奖励剪辑。 var reward = (avgSp

我一直在玩弄那些小家伙 也

在对体系结构有了一个大致的了解之后,我想知道环境给予的奖励函数到底是什么

  • 是否与gridcell的输入相同(最大行驶速度)
  • 他们是否使用奖励剪辑

  • 我还发现了这个javascript,这对我的理解也没有什么帮助。

    奖励是按时间间隔内的平均速度缩放: [-3,3]

    deeptraffic环境的实现位于以下文件中:

    我正在努力使它可读。这是WIP的一个:


    只是为了完成这一切。正如你在上面提到的等式中所看到的,不涉及奖励剪辑。
        var reward = (avgSpeedMeasurement - 60) / 20;