Machine learning 如何使用监督学习提前识别大数据集中的关键特征,其中大部分数据属于一个类别

Machine learning 如何使用监督学习提前识别大数据集中的关键特征,其中大部分数据属于一个类别,machine-learning,classification,Machine Learning,Classification,我有一个从机器(流数据)中提取的非常大的数据集,其中大多数数据属于一个类别。如果我使用当前数据训练分类器,精度将非常低。如何识别给定数据中的关键特征?另外,我如何衡量时间序列中某些先前特征的概率 识别重要特征的典型方法包括PCA和ICA。然而,比这些方法更有价值的是了解数据所代表的底层系统 如果没有关于数据结构的更多信息,很难回答。最佳分类方法取决于数据结构和分析目的。有一些分类器可以很好地处理倾斜数据,我建议您看看一些集成方法,例如boosting和random或rotation森林。其中一些

我有一个从机器(流数据)中提取的非常大的数据集,其中大多数数据属于一个类别。如果我使用当前数据训练分类器,精度将非常低。如何识别给定数据中的关键特征?另外,我如何衡量时间序列中某些先前特征的概率

识别重要特征的典型方法包括PCA和ICA。然而,比这些方法更有价值的是了解数据所代表的底层系统

如果没有关于数据结构的更多信息,很难回答。最佳分类方法取决于数据结构和分析目的。有一些分类器可以很好地处理倾斜数据,我建议您看看一些集成方法,例如boosting和random或rotation森林。其中一些分类方法,如轮作林,作为培训过程的一部分,提供有关可变重要性的信息。如果您只想确定哪些功能最重要,可以尝试使用CART/random forests。但是,如果您需要详细的帮助,我强烈建议您提供有关数据结构和希望实现的目标的更多信息

“关键特性”一词对您意味着什么?很可能任何答案都取决于您使用的分类器、数据结构和系统目标,没有指定任何一个。培训数据结构如下:4个不同值的窗口和目标输出Ex:在时间t1:V1=100,V2=200,V3=150,V4=400,在时间t2:V1=102,V2=220,V3=170,V4=430,target=+1等在某些情况下,V1、V2、V3或V4中的一个或多个值是对在线数据流(增量)数据结构的目标输出有/有主要影响的主要特性,如下所示: