Machine learning 麻省理工学院深度流量挑战中的奖励功能?
我一直在玩弄那些小家伙 也 在对体系结构有了一个大致的了解之后,我想知道环境给予的奖励函数到底是什么Machine learning 麻省理工学院深度流量挑战中的奖励功能?,machine-learning,reinforcement-learning,reward,Machine Learning,Reinforcement Learning,Reward,我一直在玩弄那些小家伙 也 在对体系结构有了一个大致的了解之后,我想知道环境给予的奖励函数到底是什么 是否与gridcell的输入相同(最大行驶速度) 他们是否使用奖励剪辑 我还发现了这个javascript,这对我的理解也没有什么帮助。奖励是按时间间隔内的平均速度缩放: [-3,3] deeptraffic环境的实现位于以下文件中: 我正在努力使它可读。这是WIP的一个: 只是为了完成这一切。正如你在上面提到的等式中所看到的,不涉及奖励剪辑。 var reward = (avgSp
我还发现了这个javascript,这对我的理解也没有什么帮助。奖励是按时间间隔内的平均速度缩放: [-3,3] deeptraffic环境的实现位于以下文件中: 我正在努力使它可读。这是WIP的一个:
只是为了完成这一切。正如你在上面提到的等式中所看到的,不涉及奖励剪辑。
var reward = (avgSpeedMeasurement - 60) / 20;