Artificial intelligence 在神经网络中分配惩罚的最佳方法?

Artificial intelligence 在神经网络中分配惩罚的最佳方法?,artificial-intelligence,reinforcement-learning,supervised-learning,Artificial Intelligence,Reinforcement Learning,Supervised Learning,我有一个有向加权图数据结构,其中节点a和节点B之间的权重表示从节点a到节点B的转换次数 数据结构的目的是识别节点之间的移动模式 因此,每个过渡的权重都是线性递增的。请告诉我是否有更好的递增方法 但是,如果用户偏离了其通常的行驶路径,则必须为最可能的路径指定一个惩罚,并为新采取的路径指定一个强化,以便根据模式的变化快速调整权重。从而使系统能够更快地进行自学习 分配处罚/增援的最佳方式是什么?我可以随机选择减半/加倍体重,但这背后没有任何理由,听起来更像是一时兴起 我宁愿给新路径的奖励更高的值;也许

我有一个有向加权图数据结构,其中节点a和节点B之间的权重表示从节点a到节点B的转换次数

数据结构的目的是识别节点之间的移动模式

因此,每个过渡的权重都是线性递增的。请告诉我是否有更好的递增方法

但是,如果用户偏离了其通常的行驶路径,则必须为最可能的路径指定一个惩罚,并为新采取的路径指定一个强化,以便根据模式的变化快速调整权重。从而使系统能够更快地进行自学习


分配处罚/增援的最佳方式是什么?我可以随机选择减半/加倍体重,但这背后没有任何理由,听起来更像是一时兴起

我宁愿给新路径的奖励更高的值;也许可以加上旅行时间倒数的奖励

我不建议惩罚可能的道路。这不是国家的一部分,也不是RL的主要工作方式。而是考虑合格的痕迹。

另一方面,与其调整/调整学习,不如考虑改进状态的初始化,这样可能更好;您的帖子显示,您当前正在尝试应用有关数据的背景信息