Neural network kNN分类器中嵌入神经网络的性能评价

Neural network kNN分类器中嵌入神经网络的性能评价,neural-network,classification,deep-learning,knn,representation,Neural Network,Classification,Deep Learning,Knn,Representation,我正在解决一个分类问题。我为一组实体训练我的无监督神经网络(使用skip-gram架构) 我评估的方法是从训练数据中为验证数据中的每个点搜索k个最近邻。我取最近邻标签的加权和(基于距离的权重),并使用每个验证数据点的得分 观察-随着我增加历元数(model1-600历元、model2-1400历元和model3-2000历元),我的AUC在k的较小值时有所改善,但在类似值时饱和 这种行为的可能解释是什么 从交叉验证]要交叉检查不平衡的类是否是一个问题,请尝试拟合SVM模型。如果这提供了一个更好

我正在解决一个分类问题。我为一组实体训练我的无监督神经网络(使用skip-gram架构)

我评估的方法是从训练数据中为验证数据中的每个点搜索k个最近邻。我取最近邻标签的加权和(基于距离的权重),并使用每个验证数据点的得分

观察-随着我增加历元数(
model1
-600历元、
model2
-1400历元和
model3
-2000历元),我的AUC在
k
的较小值时有所改善,但在类似值时饱和

这种行为的可能解释是什么


从交叉验证]

要交叉检查不平衡的类是否是一个问题,请尝试拟合SVM模型。如果这提供了一个更好的分类(如果你的ANN不是很深的话,这可能是可能的),那么可以得出这样的结论:类应该首先得到平衡


另外,尝试一些内核函数来检查这种转换是否使数据线性可分离?

我试图将客户评论分为两类。使用sentence2vec对嵌入进行培训。我已经为hadoop编写了一个自定义kNN分类器。这可能是因为这两个类之间没有足够的可分离性吗?例如,如果这是某种类型的情绪分析,那么我们经常会遇到双重否定表达,这会打乱天真的分类器。如果
model3
更擅长对此类情况进行分类,它的AUC不是比
model1
更好吗?您的数据的总体规模是多少?这两个类之间是否平衡?它感觉model3在分类方面做得更好,这在低k时很明显。然而,所有模型都受益于k值较大的倾斜/不平衡数据。我们能排除这个可能性吗?@JohnWakefield训练数据集有大约50000个例子,大约1200个正面的例子。偏斜是否能导致所有模型在较大k时表现类似?在这种情况下,这些k值的结果不应该是最差的吗?