Artificial intelligence 在神经网络中分配惩罚的最佳方法？_Artificial Intelligence_Reinforcement Learning_Supervised Learning

Artificial intelligence 在神经网络中分配惩罚的最佳方法？

artificial-intelligence

Artificial intelligence 在神经网络中分配惩罚的最佳方法？,artificial-intelligence,reinforcement-learning,supervised-learning,Artificial Intelligence,Reinforcement Learning,Supervised Learning,我有一个有向加权图数据结构，其中节点a和节点B之间的权重表示从节点a到节点B的转换次数数据结构的目的是识别节点之间的移动模式因此，每个过渡的权重都是线性递增的。请告诉我是否有更好的递增方法但是，如果用户偏离了其通常的行驶路径，则必须为最可能的路径指定一个惩罚，并为新采取的路径指定一个强化，以便根据模式的变化快速调整权重。从而使系统能够更快地进行自学习分配处罚/增援的最佳方式是什么？我可以随机选择减半/加倍体重，但这背后没有任何理由，听起来更像是一时兴起我宁愿给新路径的奖励更高的值；也许

我有一个有向加权图数据结构，其中节点a和节点B之间的权重表示从节点a到节点B的转换次数

数据结构的目的是识别节点之间的移动模式

因此，每个过渡的权重都是线性递增的。请告诉我是否有更好的递增方法

但是，如果用户偏离了其通常的行驶路径，则必须为最可能的路径指定一个惩罚，并为新采取的路径指定一个强化，以便根据模式的变化快速调整权重。从而使系统能够更快地进行自学习

分配处罚/增援的最佳方式是什么？我可以随机选择减半/加倍体重，但这背后没有任何理由，听起来更像是一时兴起

我宁愿给新路径的奖励更高的值；也许可以加上旅行时间倒数的奖励

我不建议惩罚可能的道路。这不是国家的一部分，也不是RL的主要工作方式。而是考虑合格的痕迹。

另一方面，与其调整/调整学习，不如考虑改进状态的初始化，这样可能更好；您的帖子显示，您当前正在尝试应用有关数据的背景信息