Python 如何部署Q-learning模型？_Python_Deployment_Q Learning

Python 如何部署Q-learning模型？

python deployment

Python 如何部署Q-learning模型？,python,deployment,q-learning,Python,Deployment,Q Learning,我正在努力熟悉强化学习。我使用Q-learning方法创建了一个RL 问题描述我有一组客户，每个客户都有以下功能[价格、类别、群集]-这些客户代表状态有10个操作范围价格可以改变多少-例如[0.9,0.8,0.7,0.6,0.5,1,1.2,1.5,1.7,1.9]-使用一些概率，可以在使用Q函数应用新价格时确定奖励我能够创建和训练算法，但现在假设我想在生产中使用它。我的想法是，作为输入，我希望使用状态[价格、类别、群集]，作为输出，我希望为给定客户获得最佳操作。我还认为，一旦得到客户的响

我正在努力熟悉强化学习。我使用Q-learning方法创建了一个RL

问题描述

我有一组客户，每个客户都有以下功能[价格、类别、群集]-这些客户代表状态

有10个操作范围价格可以改变多少-例如[0.9,0.8,0.7,0.6,0.5,1,1.2,1.5,1.7,1.9]-使用一些概率，可以在使用Q函数应用新价格时确定奖励

我能够创建和训练算法，但现在假设我想在生产中使用它。我的想法是，作为输入，我希望使用状态[价格、类别、群集]，作为输出，我希望为给定客户获得最佳操作。我还认为，一旦得到客户的响应，就更新模型，为模型提供新的奖励，这一点很重要

我试图找到一些如何保存和使用Q-learning函数以及如何使用新数据更新的示例，但到目前为止，我没有看到任何示例。是否有人可以提供一些示例或解释，说明如何部署和更新Q-learning模型？

Randy，您是否找到了一种有用的部署方法？@rmooney-对于Q-learning，可以保存最终表格，并查看给定场景的最佳选项，然而，如果模型非常大，则可能具有挑战性，在这种情况下，最好使用深度Q学习。我不确定，如果你知道一个更好的选择，或者你也面临着类似的问题。我正在探索一个原型的选项，有很多关于网格世界的教程，但没有太多关于生成电离RL的信息。我的假设是因为它很简单，我们只需要保存Q表并在运行时再次加载它，同时传递新的环境数据，尽管缺少示例。Randy，你找到有用的部署方法了吗？@rmooney-在Q-learning的情况下，可以保存最终的表并查看给定场景的最佳选项，然而，如果模型非常大，则可能具有挑战性，在这种情况下，最好使用深度Q学习。我不确定，如果你知道一个更好的选择，或者你也面临着类似的问题。我正在探索一个原型的选项，有很多关于网格世界的教程，但没有太多关于生成电离RL的信息。我的假设是因为它很简单，我们只需要保存Q表并在运行时再次加载它，同时传递新的环境数据，尽管缺少示例。