Machine learning 对于混合专家模型,是先独立培训专家,还是根据其总输出*门权重进行培训?
我已经看到了一些例子,这些例子一次训练了一个混合的专家模型(在整个门控+m.o.e网络上进行一次迭代)。但是,这仅适用于可以通过这种方式进行优化的模型。例如,假设一位专家是knn分类器,另一位是标准mlpMachine learning 对于混合专家模型,是先独立培训专家,还是根据其总输出*门权重进行培训?,machine-learning,tensorflow,artificial-intelligence,deep-learning,Machine Learning,Tensorflow,Artificial Intelligence,Deep Learning,我已经看到了一些例子,这些例子一次训练了一个混合的专家模型(在整个门控+m.o.e网络上进行一次迭代)。但是,这仅适用于可以通过这种方式进行优化的模型。例如,假设一位专家是knn分类器,另一位是标准mlp 那么,是针对每个专家计算损失,然后对选通网络进行自身优化,还是根据选通权重*专家输出计算总损失?[详细说明@Wontonimo答案] 在混合专家网络中,对于每个输入,每个专家提供自己的输出,然后由选通网络加权 在培训过程中,每位专家都会收到正确的输出和系数(通常为[0,1]),该系数将与其之前
那么,是针对每个专家计算损失,然后对选通网络进行自身优化,还是根据选通权重*专家输出计算总损失?[详细说明@Wontonimo答案] 在混合专家网络中,对于每个输入,每个专家提供自己的输出,然后由选通网络加权 在培训过程中,每位专家都会收到正确的输出和系数(通常为[0,1]),该系数将与其之前提供给该特定输入的输出质量成比例 门控网络将输入空间动态划分为(模糊)子集,以分配给专家 这允许每个专家专门研究可能输入值的子集
专家网络和门控网络最好同时培训,因为它们的更新是相互依存的 我可以想象这两种情况都能奏效。你是在问哪个更好还是后果如何?如果你优化了专家,那么门控网络,那么每个专家都会尝试成为一名多面手。如果您使用门控权重进行优化,那么专家将只接受他们擅长的方面的培训,这将使他们专业化。我只是在猜测,我没有参考资料,但我认为这将导致多面手和专家的m.o.e.之间的差异。