Python 使用机器学习确定哪些因素是重要的

Python 使用机器学习确定哪些因素是重要的,python,machine-learning,Python,Machine Learning,我在机器学习方面非常缺乏经验,但我想学习,为了提高我的技能,我目前正在尝试将我学到的知识应用到我自己的一个研究数据集上 我有一个数据集,有77行308列。每行对应一个样本。308列中有305列给出了有关浓度的信息,其中一列告诉您该列是否属于A、B、C或D组,一列告诉您它是X还是Y样本,一列告诉您最终输出是否成功。考虑到各组和样品类型之间的差异,我想确定哪些浓度对输出有显著影响。我尝试了多种方法(特征选择、分类等),但到目前为止,我没有得到所需的输出 因此,我的问题是,考虑到数据集相对较小,77个

我在机器学习方面非常缺乏经验,但我想学习,为了提高我的技能,我目前正在尝试将我学到的知识应用到我自己的一个研究数据集上

我有一个数据集,有77行308列。每行对应一个样本。308列中有305列给出了有关浓度的信息,其中一列告诉您该列是否属于A、B、C或D组,一列告诉您它是X还是Y样本,一列告诉您最终输出是否成功。考虑到各组和样品类型之间的差异,我想确定哪些浓度对输出有显著影响。我尝试了多种方法(特征选择、分类等),但到目前为止,我没有得到所需的输出


因此,我的问题是,考虑到数据集相对较小,77个样本中只有15个“不成功”作为输出,人们是否对我如何解决这个问题有建议/提示/想法?

计算相关性并对其进行排序。排序后,选择前10-15个类别/功能。

您没有获得所需输出的事实可能是因为与您使用的功能不同。但一般来说,对于特征选择,您可以进行PCA、基于过滤器的特征选择、白化变换等。请注意,特征选择和分类是不同的。您有一个分类问题,您正在使用特征选择。对于这样少的样本,您需要一些降维技术