Machine learning 任意大动作/状态空间中的强化学习

Machine learning 任意大动作/状态空间中的强化学习,machine-learning,deep-learning,artificial-intelligence,reinforcement-learning,approximate-nn-searching,Machine Learning,Deep Learning,Artificial Intelligence,Reinforcement Learning,Approximate Nn Searching,我有兴趣使用深度强化学习,以便在(太多)可能性和一些(必需的)中间停站(例如,买咖啡或加油)中找到一条独特的最佳回家路径 此外,我希望在代理不知道环境的“模型”,并且代理根本无法尝试所有可能的状态和操作组合的情况下应用此方法。即需要在Q值函数(和/或策略)中使用近似技术 我读过一些方法来面对这样的情况——奖励,如果有的话,是稀疏的和二元的——比如蒙特卡罗树搜索(根据我的理解,这意味着某种建模和规划)或事后经验重播(HER),应用DDPG的思想 但是有很多种不同的算法需要考虑,我有点困惑什么是最好

我有兴趣使用深度强化学习,以便在(太多)可能性和一些(必需的)中间停站(例如,买咖啡或加油)中找到一条独特的最佳回家路径

此外,我希望在代理不知道环境的“模型”,并且代理根本无法尝试所有可能的状态和操作组合的情况下应用此方法。即需要在Q值函数(和/或策略)中使用近似技术

我读过一些方法来面对这样的情况——奖励,如果有的话,是稀疏的和二元的——比如蒙特卡罗树搜索(根据我的理解,这意味着某种建模和规划)或事后经验重播(HER),应用DDPG的思想

但是有很多种不同的算法需要考虑,我有点困惑什么是最好的开始。 我知道这是一个困难的问题,也许问这个问题太幼稚了,但是有没有明确、直接和众所周知的方法来解决我想要面对的问题

非常感谢


Matias

如果最终目的地是固定的,如本例所示(家),您可以进行动态搜索,因为*由于环境变化而无法工作。
如果你想使用深度学习算法,那么可以选择a3c
,由于动作/状态空间很大,因此可以进行经验回放。它能够处理复杂的问题。

这是一个非常通用的问题,答案取决于太多的东西。我认为这是一个很好的起点。它快速清晰地回顾了最著名的RL算法,从旧的策略梯度到最新的策略梯度,并链接到论文和实现。