Machine learning 我有一个分类项目,其中一些列/特性的空值超过90%。我该如何处理它们?

Machine learning 我有一个分类项目,其中一些列/特性的空值超过90%。我该如何处理它们?,machine-learning,classification,random-forest,missing-data,imputation,Machine Learning,Classification,Random Forest,Missing Data,Imputation,在我的分类问题中,85个特征中的一些特征(~5)大多为空值(>90%)。如何处理这些值?是吗? 1) 完全忽略这些列/功能 2) 尝试估算这些值,如果是,如何估算 3) 还有别的方法吗 我从随机林开始,我是这个方法的新手,随机林自己处理空值吗?我如何实现这一点?随机森林是如何做到这一点的?我在哪里可以了解到这一点-任何参考都非常欢迎 提前感谢。您是否尝试过在数据集上运行神经网络,即使功能缺失?神经网络不需要所有的特征都存在 您可以简单地将神经网络的所有缺失特征值设置为0,因为神经网络看不到0和特

在我的分类问题中,85个特征中的一些特征(~5)大多为空值(>90%)。如何处理这些值?是吗?

1) 完全忽略这些列/功能

2) 尝试估算这些值,如果是,如何估算

3) 还有别的方法吗

我从随机林开始,我是这个方法的新手,随机林自己处理空值吗?我如何实现这一点?随机森林是如何做到这一点的?我在哪里可以了解到这一点-任何参考都非常欢迎


提前感谢。

您是否尝试过在数据集上运行神经网络,即使功能缺失?神经网络不需要所有的特征都存在

您可以简单地将神经网络的所有缺失特征值设置为
0
,因为神经网络看不到
0
特征缺失之间的差异。你为什么不问?如果将输入值设置为0,则表示来自该输入节点的所有连接都将具有
0
值a井:不向连接到该输入节点的隐藏神经元添加任何内容


但是在你尝试之前,先问问你自己这个问题:如果某个特征经常缺失,那么它对数据集预测有什么重要意义吗

这对SO来说不是一个好问题,因为它a)与编程无关,b)过于宽泛。我建议你自己尝试一下(只要运行它,就很容易看出RF是否处理空值),也可以删除这篇文章,在