Machine learning 分类中的特征权重学习算法_Machine Learning_Classification_Feature Selection

Machine learning 分类中的特征权重学习算法

machine-learning

Machine learning 分类中的特征权重学习算法,machine-learning,classification,feature-selection,Machine Learning,Classification,Feature Selection,我在一个多分类任务中工作。我已经成功地使用了神经网络（2个隐藏层）和支持向量机（SVM）来实现这一点。但是，我希望为每个特征指定实际权重由于SVM和NN都不显式地产生权重，有没有办法计算它们我猜逻辑回归不起作用，因为特征空间很大（大约20多个特征），而且问题是非线性的。如果我错了，请纠正我建议是否有任何其他分类算法可以给我权重，并具有类似于NN/SVM的性能 Feature Space x1,x2,x3........................... x25 --- class1

我在一个多分类任务中工作。我已经成功地使用了神经网络（2个隐藏层）和支持向量机（SVM）来实现这一点。但是，我希望为每个特征指定实际权重

由于SVM和NN都不显式地产生权重，有没有办法计算它们

我猜逻辑回归不起作用，因为特征空间很大（大约20多个特征），而且问题是非线性的。如果我错了，请纠正我

建议是否有任何其他分类算法可以给我权重，并具有类似于NN/SVM的性能

Feature Space
x1,x2,x3........................... x25   --- class1
x1,x2,x3........................... x25   --- class2
x1,x2,x3........................... x25   --- class3

这些功能属于不同的领域，例如（文本、滚动移动、花费的时间、图像/链接数量等）

分类之后，我想了解在分类过程中每个特征是如何加权的？

当涉及机器学习问题时，“权重”是一个非常模糊的术语，可以在许多上下文中使用

如果您已经在使用神经网络，并且想知道每个特征对神经网络分类效率的贡献有多大，请在移除给定特征的情况下测量网络性能，并根据性能的降低来计算权重

如果你只是想大致了解哪些特征更重要，你一定要进行逻辑回归。事实上，它完全不局限于线性问题。（我猜你是从维基百科文章的图片中得到这个想法的，但如果你愿意的话，这只是整个回归系列的一个徽标。）

此外，在机器学习领域，20+的功能通常被认为是微不足道的。大量的特征将有几千个。

如果你让你的神经网络在其输出中具有概率性——使用softmax输出层并最小化交叉熵损失——你可以评估训练数据或某些heldout数据的可能性。这使您可以将不同的模型与模型固有的通用评估度量进行比较，方法与逻辑回归相同（尽管您无法对权重进行标准显著性测试）

使用逻辑回归计算这些有意义的分数的问题在于，统计数据中隐含的数据模型不是用于实际预测的数据模型，因此它们并没有真正告诉你关于模型的任何信息

老实说，我想说，使用您真正关心的评估指标是正确的做法。如果你真的需要一个显著性测试，我会认为你可以做一些基于自举/重采样/MCMC的方案来计算p值或区间

After classification, I want to understand how each feature is weighted during classification??

我不确定你所说的分类过程中想要什么。如果我能很好地理解这条评论，

删除特定的特征集并测量分类结果

，由

ffriend

添加，说明了这种情况。但是我认为你可以在不做任何分类的情况下对你的特征进行加权。记住

PCA

。提取一系列特征值，并根据它们的大小保留相应的特征向量。使用相同的逻辑，您可以使用所有特征值作为权重。注意你的数据和相应的特征值之间的对应关系

我希望我没有超出这个问题的范围

多谢各位

你为什么要举重？你所说的权重是什么意思？在成功分类后的最后，我想了解每个特征的重要性。假设在逻辑回归或简单感知器中，我们最终收敛到每个特征的特定θ值。在某种程度上，具有高θ值的特征对应于更高的重要性。我希望在高维非线性分类问题中也有类似的问题。你们真的需要说明为什么你们需要知道特征的重要性。不同的技术在不同的情况下可能会更好。事实上，通常不是单独的特征，而是对结果影响最大的特征子集。例如，如果您有功能

x1

、

x2

和

x3

，并且您发现它们按重要性排序为

x1

x2

x3

（最重要的是

x1

，最不重要的是

x3

），仍然有可能

x2

和

x3

一起比

x1

和

x2

更重要（一种情况是

x1

和

x2

可能高度相关）。@ffriend:下面是问题的详细描述。我正在进行基于多应用程序的分类。不同的应用程序（A1、A2、A3）具有不同的功能。例如A1-x1 x2 x3 x4。。。A2-x16 x17 x18 x19。。。A3-x26 x27 x28。。。。。。现在，我的任务是根据从3个应用程序的所有这些特性中收集的属性对文档进行分类。现在我真正想了解的是每个应用程序的重要性。我认为理解特征的权重将有助于决定这一点。我准备好接受任何其他建议。啊，现在我明白了。因此，您需要衡量应用程序/功能集的重要性。在本例中，我同意Slater的想法，即删除特定的特征集并测量分类结果。同意-20个几乎可以手动完成的特征；-）谢谢@slater。删除给定的功能并根据性能的降低来测量重量是一个好主意。在这种情况下，总网络误差的降低性能将更有意义，或者精度/召回率/F1值的降低？？任何已经发表的将减重映射到权重的工作？？我同意20+特征在机器学习世界中是一个很小的特征空间。我也知道逻辑回归可以用于多项式方法的非线性分类问题。然而，如果我们用20个特征加上3/4次多项式，那么特征空间将呈指数增长。是否仍建议这样做