Python 基于MDP的强化学习用于收益优化

Python 基于MDP的强化学习用于收益优化,python,optimization,reinforcement-learning,markov-decision-process,Python,Optimization,Reinforcement Learning,Markov Decision Process,我想将飞机座位销售服务建模为MDP(马尔可夫决策过程),以使用强化学习优化航空公司收入,因为我需要定义什么是:状态、行动、政策、价值和奖励。我想了一下,但我觉得还是少了一些东西 我通过以下方式对系统进行建模: 表示=(r,c)其中r是乘客数量,c是购买的座位数量,因此r>=c Actions=(p1、p2、p3)这是三种价格。我们的目标是决定哪一个能带来更多的收入 回报:收入 你能告诉我你的想法并帮助我吗 在模型化之后,我必须实现所有的智能强化学习。是否有一个软件包可以完成这项工作?我认为您

我想将飞机座位销售服务建模为MDP(马尔可夫决策过程),以使用强化学习优化航空公司收入,因为我需要定义什么是:状态、行动、政策、价值和奖励。我想了一下,但我觉得还是少了一些东西

我通过以下方式对系统进行建模:

  • 表示=(r,c)
    其中r是乘客数量,c是购买的座位数量,因此
    r>=c
  • Actions=(p1、p2、p3)
    这是三种价格。我们的目标是决定哪一个能带来更多的收入
  • 回报:收入
你能告诉我你的想法并帮助我吗


在模型化之后,我必须实现所有的智能强化学习。是否有一个软件包可以完成这项工作?

我认为您的公式中缺少的最大的东西是顺序部分。强化学习在按顺序使用时非常有用,因为下一个状态必须依赖于当前状态(因此是“马尔可夫状态”)。在这个公式中,您根本没有指定任何马尔可夫行为。此外,奖励是一个标量,它依赖于当前状态或当前状态与动作的组合。在您的案例中,收入取决于价格(行动),但与州(座位)无关。这是我在你的公式中看到的两个大问题,还有其他问题。我建议你在尝试制定你自己的理论之前,先通过RL理论(在线课程等)并写一些示例问题

@shynyo,谢谢你的回复。实际上,我已经看到了一些RL示例,例如grid world示例。我看到在网格中,每个状态都被建模,就像我使用元组(r,c)一样。他们使用epsilon贪婪来选择一个动作,一旦完成,他们使用一些概率P(s'/s,a)来进入下一个状态。我也想做同样的事情,所以我选择了3个动作,然后我实现了一个函数[代码](def get_next_state(r,c,action,df_experience):)来计算我卖出或不卖出座位的概率,然后进入下一个状态,你觉得怎么样?收入是用python计算的,其中有一个函数,在旧奖励的基础上增加即时奖励,即时奖励取决于所做的行动以及是否购买了座椅,这取决于根据到达客户的模型计算的购买概率:def收入(购买,行动,r,r_总计):因此,您认为这些细节是否仍然缺少顺序部分?否则,你认为给我的状态增加时间会给我的状态带来连续的部分吗?谢谢你,如果你愿意,我可以提供更多细节。