Neural network kNN分类器中嵌入神经网络的性能评价_Neural Network_Classification_Deep Learning_Knn_Representation

Neural network kNN分类器中嵌入神经网络的性能评价

neural-network deep-learning

Neural network kNN分类器中嵌入神经网络的性能评价,neural-network,classification,deep-learning,knn,representation,Neural Network,Classification,Deep Learning,Knn,Representation,我正在解决一个分类问题。我为一组实体训练我的无监督神经网络（使用skip-gram架构）我评估的方法是从训练数据中为验证数据中的每个点搜索k个最近邻。我取最近邻标签的加权和（基于距离的权重），并使用每个验证数据点的得分观察-随着我增加历元数（model1-600历元、model2-1400历元和model3-2000历元），我的AUC在k的较小值时有所改善，但在类似值时饱和这种行为的可能解释是什么从交叉验证]要交叉检查不平衡的类是否是一个问题，请尝试拟合SVM模型。如果这提供了一个更好

我正在解决一个分类问题。我为一组实体训练我的无监督神经网络（使用skip-gram架构）

我评估的方法是从训练数据中为验证数据中的每个点搜索k个最近邻。我取最近邻标签的加权和（基于距离的权重），并使用每个验证数据点的得分

观察-随着我增加历元数（

model1

-600历元、

model2

-1400历元和

model3

-2000历元），我的AUC在

的较小值时有所改善，但在类似值时饱和

这种行为的可能解释是什么

从交叉验证]

要交叉检查不平衡的类是否是一个问题，请尝试拟合SVM模型。如果这提供了一个更好的分类（如果你的ANN不是很深的话，这可能是可能的），那么可以得出这样的结论：类应该首先得到平衡

另外，尝试一些内核函数来检查这种转换是否使数据线性可分离？

我试图将客户评论分为两类。使用sentence2vec对嵌入进行培训。我已经为hadoop编写了一个自定义kNN分类器。这可能是因为这两个类之间没有足够的可分离性吗？例如，如果这是某种类型的情绪分析，那么我们经常会遇到双重否定表达，这会打乱天真的分类器。如果

model3

更擅长对此类情况进行分类，它的AUC不是比

model1

更好吗？您的数据的总体规模是多少？这两个类之间是否平衡？它感觉model3在分类方面做得更好，这在低k时很明显。然而，所有模型都受益于k值较大的倾斜/不平衡数据。我们能排除这个可能性吗？@JohnWakefield训练数据集有大约50000个例子，大约1200个正面的例子。偏斜是否能导致所有模型在较大k时表现类似？在这种情况下，这些k值的结果不应该是最差的吗？