Machine learning 神经网络强化学习 我正在与RL&NN合作一个项目 我需要确定将被输入神经网络的动作向量结构

Machine learning 神经网络强化学习 我正在与RL&NN合作一个项目 我需要确定将被输入神经网络的动作向量结构,machine-learning,neural-network,reinforcement-learning,markov,Machine Learning,Neural Network,Reinforcement Learning,Markov,我有3个不同的动作(A&B&Nothing),每个动作都有不同的能力(例如A100 A50 B100 B50) 我想知道将这些操作反馈给NN以产生最佳结果的最佳方法是什么 1-向输入1馈电A/B,而向输入2馈电动作功率100/50/无 2-将A100/A50/Nothing输入1,将B100/B50/Nothing输入2 3-将A100/A50馈送至输入1,将B100/B50馈送至输入2,将Nothing标志馈送至输入3 4-是否也要输入100和50或将其正常化为2和1 我需要选择一种方法的理由

我有3个不同的动作(A&B&Nothing),每个动作都有不同的能力(例如A100 A50 B100 B50) 我想知道将这些操作反馈给NN以产生最佳结果的最佳方法是什么

1-向输入1馈电A/B,而向输入2馈电动作功率100/50/无

2-将A100/A50/Nothing输入1,将B100/B50/Nothing输入2

3-将A100/A50馈送至输入1,将B100/B50馈送至输入2,将Nothing标志馈送至输入3

4-是否也要输入100和50或将其正常化为2和1

我需要选择一种方法的理由 建议您提出任何建议


谢谢

你想学什么?输出应该是什么? 输入仅仅是所使用的操作吗?如果您正在学习环境模型,则该模型由概率分布表示:

p(下一个状态|状态,动作)

通常为每个动作使用单独的模型。 这使得输入和输出之间的映射更加简单。 输入是状态特征的向量。输出是下一状态特征的向量。所使用的操作由模型暗示

状态特征可以编码为位。活动位表示存在某个特征


这将学习确定性模型。我不知道学习下一个状态的随机模型的好方法是什么。一种可能是使用随机神经元。

你想学什么?输出应该是什么? 输入仅仅是所使用的操作吗?如果您正在学习环境模型,则该模型由概率分布表示:

p(下一个状态|状态,动作)

通常为每个动作使用单独的模型。 这使得输入和输出之间的映射更加简单。 输入是状态特征的向量。输出是下一状态特征的向量。所使用的操作由模型暗示

状态特征可以编码为位。活动位表示存在某个特征


这将学习确定性模型。我不知道学习下一个状态的随机模型的好方法是什么。一种可能是使用随机神经元。

有多少输出,以及您希望在各种输入上发生什么?除非你指定什么是“最佳结果”,否则没有人能帮助你。(顺便问一下,有多少输入,它们应该如何相互作用?)有多少输出,以及您希望在各种输入上发生什么?除非你指定什么是“最佳结果”,否则没有人能帮助你。(顺便问一下,有多少输入,它们应该如何相互作用?)