Python 如何部署Q-learning模型?

Python 如何部署Q-learning模型?,python,deployment,q-learning,Python,Deployment,Q Learning,我正在努力熟悉强化学习。我使用Q-learning方法创建了一个RL 问题描述 我有一组客户,每个客户都有以下功能[价格、类别、群集]-这些客户代表状态 有10个操作范围价格可以改变多少-例如[0.9,0.8,0.7,0.6,0.5,1,1.2,1.5,1.7,1.9]-使用一些概率,可以在使用Q函数应用新价格时确定奖励 我能够创建和训练算法,但现在假设我想在生产中使用它。我的想法是,作为输入,我希望使用状态[价格、类别、群集],作为输出,我希望为给定客户获得最佳操作。我还认为,一旦得到客户的响

我正在努力熟悉强化学习。我使用Q-learning方法创建了一个RL

问题描述

  • 我有一组客户,每个客户都有以下功能[价格、类别、群集]-这些客户代表状态
  • 有10个操作范围价格可以改变多少-例如[0.9,0.8,0.7,0.6,0.5,1,1.2,1.5,1.7,1.9]-使用一些概率,可以在使用Q函数应用新价格时确定奖励
  • 我能够创建和训练算法,但现在假设我想在生产中使用它。我的想法是,作为输入,我希望使用状态[价格、类别、群集],作为输出,我希望为给定客户获得最佳操作。我还认为,一旦得到客户的响应,就更新模型,为模型提供新的奖励,这一点很重要
    我试图找到一些如何保存和使用Q-learning函数以及如何使用新数据更新的示例,但到目前为止,我没有看到任何示例。是否有人可以提供一些示例或解释,说明如何部署和更新Q-learning模型?

    Randy,您是否找到了一种有用的部署方法?@rmooney-对于Q-learning,可以保存最终表格,并查看给定场景的最佳选项,然而,如果模型非常大,则可能具有挑战性,在这种情况下,最好使用深度Q学习。我不确定,如果你知道一个更好的选择,或者你也面临着类似的问题。我正在探索一个原型的选项,有很多关于网格世界的教程,但没有太多关于生成电离RL的信息。我的假设是因为它很简单,我们只需要保存Q表并在运行时再次加载它,同时传递新的环境数据,尽管缺少示例。Randy,你找到有用的部署方法了吗?@rmooney-在Q-learning的情况下,可以保存最终的表并查看给定场景的最佳选项,然而,如果模型非常大,则可能具有挑战性,在这种情况下,最好使用深度Q学习。我不确定,如果你知道一个更好的选择,或者你也面临着类似的问题。我正在探索一个原型的选项,有很多关于网格世界的教程,但没有太多关于生成电离RL的信息。我的假设是因为它很简单,我们只需要保存Q表并在运行时再次加载它,同时传递新的环境数据,尽管缺少示例。