Neural network 在建立预测模型时,我是否应该忽略具有高偏度的变量?

Neural network 在建立预测模型时,我是否应该忽略具有高偏度的变量?,neural-network,data-mining,decision-tree,prediction,Neural Network,Data Mining,Decision Tree,Prediction,我正在尝试使用NN/决策树建立一个预测模型。我有一个庞大的变量集,所以我正在尝试进行特征选择(删除不需要的变量)。我可以删除具有高偏度(非正态分布)的变量吗?它会对构建的模型产生影响吗?如果一个变量发生偏斜,并不意味着它是坏的 正态分布数据也可能只是随机值 但对于许多方法,您需要花费更多的时间预处理扭曲变量以获得最佳性能。但是,是什么让你认为仅仅因为它们是倾斜的就把它们排除在外是个好主意呢?嗨,我只是一个试图理解数据挖掘过程的新手。在我的例子中,我有一个对象(不是目标对象),70%的数据的对象值

我正在尝试使用NN/决策树建立一个预测模型。我有一个庞大的变量集,所以我正在尝试进行特征选择(删除不需要的变量)。我可以删除具有高偏度(非正态分布)的变量吗?它会对构建的模型产生影响吗?

如果一个变量发生偏斜,并不意味着它是坏的

正态分布数据也可能只是随机值


但对于许多方法,您需要花费更多的时间预处理扭曲变量以获得最佳性能。但是,是什么让你认为仅仅因为它们是倾斜的就把它们排除在外是个好主意呢?

嗨,我只是一个试图理解数据挖掘过程的新手。在我的例子中,我有一个对象(不是目标对象),70%的数据的对象值是0。因此,离开/忽略这个对象会影响我的模型?这也是很常见的。例如在文本中。术语是“稀疏数据”。如果在文本挖掘中忽略这些属性,就不会有数据了。