Python 基于MDP的强化学习用于收益优化_Python_Optimization_Reinforcement Learning_Markov Decision Process

Python 基于MDP的强化学习用于收益优化

python optimization

Python 基于MDP的强化学习用于收益优化,python,optimization,reinforcement-learning,markov-decision-process,Python,Optimization,Reinforcement Learning,Markov Decision Process,我想将飞机座位销售服务建模为MDP（马尔可夫决策过程），以使用强化学习优化航空公司收入，因为我需要定义什么是：状态、行动、政策、价值和奖励。我想了一下，但我觉得还是少了一些东西我通过以下方式对系统进行建模：表示=（r，c）其中r是乘客数量，c是购买的座位数量，因此r>=c Actions=（p1、p2、p3）这是三种价格。我们的目标是决定哪一个能带来更多的收入回报：收入你能告诉我你的想法并帮助我吗在模型化之后，我必须实现所有的智能强化学习。是否有一个软件包可以完成这项工作？我认为您

我想将飞机座位销售服务建模为MDP（马尔可夫决策过程），以使用强化学习优化航空公司收入，因为我需要定义什么是：状态、行动、政策、价值和奖励。我想了一下，但我觉得还是少了一些东西

我通过以下方式对系统进行建模：

```
表示=（r，c）
```
其中r是乘客数量，c是购买的座位数量，因此
```
r>=c
```
```
Actions=（p1、p2、p3）
```
这是三种价格。我们的目标是决定哪一个能带来更多的收入
回报：收入

你能告诉我你的想法并帮助我吗

在模型化之后，我必须实现所有的智能强化学习。是否有一个软件包可以完成这项工作？

我认为您的公式中缺少的最大的东西是顺序部分。强化学习在按顺序使用时非常有用，因为下一个状态必须依赖于当前状态（因此是“马尔可夫状态”）。在这个公式中，您根本没有指定任何马尔可夫行为。此外，奖励是一个标量，它依赖于当前状态或当前状态与动作的组合。在您的案例中，收入取决于价格（行动），但与州（座位）无关。这是我在你的公式中看到的两个大问题，还有其他问题。我建议你在尝试制定你自己的理论之前，先通过RL理论（在线课程等）并写一些示例问题

@shynyo，谢谢你的回复。实际上，我已经看到了一些RL示例，例如grid world示例。我看到在网格中，每个状态都被建模，就像我使用元组（r，c）一样。他们使用epsilon贪婪来选择一个动作，一旦完成，他们使用一些概率P（s'/s，a）来进入下一个状态。我也想做同样的事情，所以我选择了3个动作，然后我实现了一个函数[代码]（def get_next_state（r，c，action，df_experience）：）来计算我卖出或不卖出座位的概率，然后进入下一个状态，你觉得怎么样？收入是用python计算的，其中有一个函数，在旧奖励的基础上增加即时奖励，即时奖励取决于所做的行动以及是否购买了座椅，这取决于根据到达客户的模型计算的购买概率：def收入（购买，行动，r，r_总计）：因此，您认为这些细节是否仍然缺少顺序部分？否则，你认为给我的状态增加时间会给我的状态带来连续的部分吗？谢谢你，如果你愿意，我可以提供更多细节。