Machine learning 如何使用监督学习提前识别大数据集中的关键特征，其中大部分数据属于一个类别_Machine Learning_Classification

Machine learning 如何使用监督学习提前识别大数据集中的关键特征，其中大部分数据属于一个类别

machine-learning

Machine learning 如何使用监督学习提前识别大数据集中的关键特征，其中大部分数据属于一个类别,machine-learning,classification,Machine Learning,Classification,我有一个从机器（流数据）中提取的非常大的数据集，其中大多数数据属于一个类别。如果我使用当前数据训练分类器，精度将非常低。如何识别给定数据中的关键特征？另外，我如何衡量时间序列中某些先前特征的概率识别重要特征的典型方法包括PCA和ICA。然而，比这些方法更有价值的是了解数据所代表的底层系统如果没有关于数据结构的更多信息，很难回答。最佳分类方法取决于数据结构和分析目的。有一些分类器可以很好地处理倾斜数据，我建议您看看一些集成方法，例如boosting和random或rotation森林。其中一些

我有一个从机器（流数据）中提取的非常大的数据集，其中大多数数据属于一个类别。如果我使用当前数据训练分类器，精度将非常低。如何识别给定数据中的关键特征？另外，我如何衡量时间序列中某些先前特征的概率

识别重要特征的典型方法包括PCA和ICA。然而，比这些方法更有价值的是了解数据所代表的底层系统

如果没有关于数据结构的更多信息，很难回答。最佳分类方法取决于数据结构和分析目的。有一些分类器可以很好地处理倾斜数据，我建议您看看一些集成方法，例如boosting和random或rotation森林。其中一些分类方法，如轮作林，作为培训过程的一部分，提供有关可变重要性的信息。如果您只想确定哪些功能最重要，可以尝试使用CART/random forests。但是，如果您需要详细的帮助，我强烈建议您提供有关数据结构和希望实现的目标的更多信息

“关键特性”一词对您意味着什么？很可能任何答案都取决于您使用的分类器、数据结构和系统目标，没有指定任何一个。培训数据结构如下：4个不同值的窗口和目标输出Ex:在时间t1:V1=100，V2=200，V3=150，V4=400，在时间t2:V1=102，V2=220，V3=170，V4=430，target=+1等在某些情况下，V1、V2、V3或V4中的一个或多个值是对在线数据流（增量）数据结构的目标输出有/有主要影响的主要特性，如下所示：