Reinforcement learning 我说的是在买了机票后，你可以付费选择坐哪个座位的附加设备。我在AI stackexchange上发布了一个稍微更新的问题，以使这一点更加清楚（）。关于你的第一点，我将能够访问库存信息，因此我认为这应该考虑到这方面的问题。你对第二点的解释很清楚，谢谢。然而，_Reinforcement Learning_Price

Reinforcement learning 我说的是在买了机票后，你可以付费选择坐哪个座位的附加设备。我在AI stackexchange上发布了一个稍微更新的问题，以使这一点更加清楚（）。关于你的第一点，我将能够访问库存信息，因此我认为这应该考虑到这方面的问题。你对第二点的解释很清楚，谢谢。然而，

Reinforcement learning 我说的是在买了机票后，你可以付费选择坐哪个座位的附加设备。我在AI stackexchange上发布了一个稍微更新的问题，以使这一点更加清楚（）。关于你的第一点，我将能够访问库存信息，因此我认为这应该考虑到这方面的问题。你对第二点的解释很清楚，谢谢。然而，,reinforcement-learning,price,Reinforcement Learning,Price,我说的是在买了机票后，你可以付费选择坐哪个座位的附加设备。我在AI stackexchange上发布了一个稍微更新的问题，以使这一点更加清楚（）。关于你的第一点，我将能够访问库存信息，因此我认为这应该考虑到这方面的问题。你对第二点的解释很清楚，谢谢。然而，当我拥有巨大的行动空间（由于价格组合数量巨大）时，我仍然有点不确定这在实践中如何起作用。以DQN为例，对于每个价格集组合，我不可能有10^8个输出节点。如果您有任何想法，我们将不胜感激——如果是这样的话，也许在我上面链接的帖子上回答会更有意义。

我说的是在买了机票后，你可以付费选择坐哪个座位的附加设备。我在AI stackexchange上发布了一个稍微更新的问题，以使这一点更加清楚（）。关于你的第一点，我将能够访问库存信息，因此我认为这应该考虑到这方面的问题。你对第二点的解释很清楚，谢谢。然而，当我拥有巨大的行动空间（由于价格组合数量巨大）时，我仍然有点不确定这在实践中如何起作用。以DQN为例，对于每个价格集组合，我不可能有10^8个输出节点。如果您有任何想法，我们将不胜感激——如果是这样的话，也许在我上面链接的帖子上回答会更有意义。