Machine learning 寻找用于操纵大规模马尔可夫决策过程(MDP)的库

Machine learning 寻找用于操纵大规模马尔可夫决策过程(MDP)的库,machine-learning,reinforcement-learning,markov-decision-process,Machine Learning,Reinforcement Learning,Markov Decision Process,我有一个问题,我想表示为一个大规模的马尔可夫决策过程。我希望有一个模型可以预测状态转换和奖励,但我想推断价值函数和政策函数。通过线性模型或神经网络对值函数和“Q”函数进行近似推断将很好 一个关键要求:我要扩大我的状态空间,使它不能在内存中表示。我需要通过特征值来表示状态 是否有库可以帮助我在这种大规模设置中推断价值和策略功能?我遇到的大多数马尔可夫决策过程库似乎面向非常小规模的问题和精确推理 如果没有交钥匙解决方案,有人对如何构建这样一个系统有什么建议吗?您可以使用TensorFlow开发人员支

我有一个问题,我想表示为一个大规模的马尔可夫决策过程。我希望有一个模型可以预测状态转换和奖励,但我想推断价值函数和政策函数。通过线性模型或神经网络对值函数和“Q”函数进行近似推断将很好

一个关键要求:我要扩大我的状态空间,使它不能在内存中表示。我需要通过特征值来表示状态

是否有库可以帮助我在这种大规模设置中推断价值和策略功能?我遇到的大多数马尔可夫决策过程库似乎面向非常小规模的问题和精确推理

如果没有交钥匙解决方案,有人对如何构建这样一个系统有什么建议吗?

您可以使用TensorFlow开发人员支持的,并且已经为Q值函数近似预实现了DQN代理。您需要做的主要事情是为您的特定环境编写代码,该代码与代理一起构成您的MDP