Machine learning 神经网络强化学习我正在与RL&NN合作一个项目我需要确定将被输入神经网络的动作向量结构_Machine Learning_Neural Network_Reinforcement Learning_Markov

Machine learning 神经网络强化学习我正在与RL&NN合作一个项目我需要确定将被输入神经网络的动作向量结构

machine-learning neural-network

Machine learning 神经网络强化学习我正在与RL&NN合作一个项目我需要确定将被输入神经网络的动作向量结构,machine-learning,neural-network,reinforcement-learning,markov,Machine Learning,Neural Network,Reinforcement Learning,Markov,我有3个不同的动作（A&B&Nothing），每个动作都有不同的能力（例如A100 A50 B100 B50）我想知道将这些操作反馈给NN以产生最佳结果的最佳方法是什么 1-向输入1馈电A/B，而向输入2馈电动作功率100/50/无 2-将A100/A50/Nothing输入1，将B100/B50/Nothing输入2 3-将A100/A50馈送至输入1，将B100/B50馈送至输入2，将Nothing标志馈送至输入3 4-是否也要输入100和50或将其正常化为2和1 我需要选择一种方法的理由

我有3个不同的动作（A&B&Nothing），每个动作都有不同的能力（例如A100 A50 B100 B50）我想知道将这些操作反馈给NN以产生最佳结果的最佳方法是什么

1-向输入1馈电A/B，而向输入2馈电动作功率100/50/无

2-将A100/A50/Nothing输入1，将B100/B50/Nothing输入2

3-将A100/A50馈送至输入1，将B100/B50馈送至输入2，将Nothing标志馈送至输入3

4-是否也要输入100和50或将其正常化为2和1

我需要选择一种方法的理由建议您提出任何建议

谢谢

你想学什么？输出应该是什么？输入仅仅是所使用的操作吗？如果您正在学习环境模型，则该模型由概率分布表示：

p（下一个状态|状态，动作）

通常为每个动作使用单独的模型。这使得输入和输出之间的映射更加简单。输入是状态特征的向量。输出是下一状态特征的向量。所使用的操作由模型暗示

状态特征可以编码为位。活动位表示存在某个特征

这将学习确定性模型。我不知道学习下一个状态的随机模型的好方法是什么。一种可能是使用随机神经元。

你想学什么？输出应该是什么？输入仅仅是所使用的操作吗？如果您正在学习环境模型，则该模型由概率分布表示：

p（下一个状态|状态，动作）

状态特征可以编码为位。活动位表示存在某个特征

这将学习确定性模型。我不知道学习下一个状态的随机模型的好方法是什么。一种可能是使用随机神经元。

有多少输出，以及您希望在各种输入上发生什么？除非你指定什么是“最佳结果”，否则没有人能帮助你。（顺便问一下，有多少输入，它们应该如何相互作用？）有多少输出，以及您希望在各种输入上发生什么？除非你指定什么是“最佳结果”，否则没有人能帮助你。（顺便问一下，有多少输入，它们应该如何相互作用？）