Reinforcement learning 我说的是在买了机票后,你可以付费选择坐哪个座位的附加设备。我在AI stackexchange上发布了一个稍微更新的问题,以使这一点更加清楚()。关于你的第一点,我将能够访问库存信息,因此我认为这应该考虑到这方面的问题。你对第二点的解释很清楚,谢谢。然而,

Reinforcement learning 我说的是在买了机票后,你可以付费选择坐哪个座位的附加设备。我在AI stackexchange上发布了一个稍微更新的问题,以使这一点更加清楚()。关于你的第一点,我将能够访问库存信息,因此我认为这应该考虑到这方面的问题。你对第二点的解释很清楚,谢谢。然而,,reinforcement-learning,price,Reinforcement Learning,Price,我说的是在买了机票后,你可以付费选择坐哪个座位的附加设备。我在AI stackexchange上发布了一个稍微更新的问题,以使这一点更加清楚()。关于你的第一点,我将能够访问库存信息,因此我认为这应该考虑到这方面的问题。你对第二点的解释很清楚,谢谢。然而,当我拥有巨大的行动空间(由于价格组合数量巨大)时,我仍然有点不确定这在实践中如何起作用。以DQN为例,对于每个价格集组合,我不可能有10^8个输出节点。如果您有任何想法,我们将不胜感激——如果是这样的话,也许在我上面链接的帖子上回答会更有意义。


我说的是在买了机票后,你可以付费选择坐哪个座位的附加设备。我在AI stackexchange上发布了一个稍微更新的问题,以使这一点更加清楚()。关于你的第一点,我将能够访问库存信息,因此我认为这应该考虑到这方面的问题。你对第二点的解释很清楚,谢谢。然而,当我拥有巨大的行动空间(由于价格组合数量巨大)时,我仍然有点不确定这在实践中如何起作用。以DQN为例,对于每个价格集组合,我不可能有10^8个输出节点。如果您有任何想法,我们将不胜感激——如果是这样的话,也许在我上面链接的帖子上回答会更有意义。