Machine learning 我有一个分类项目，其中一些列/特性的空值超过90%。我该如何处理它们？_Machine Learning_Classification_Random Forest_Missing Data_Imputation

Machine learning 我有一个分类项目，其中一些列/特性的空值超过90%。我该如何处理它们？

machine-learning

Machine learning 我有一个分类项目，其中一些列/特性的空值超过90%。我该如何处理它们？,machine-learning,classification,random-forest,missing-data,imputation,Machine Learning,Classification,Random Forest,Missing Data,Imputation,在我的分类问题中，85个特征中的一些特征（~5）大多为空值（>90%）。如何处理这些值？是吗? 1）完全忽略这些列/功能 2）尝试估算这些值，如果是，如何估算 3）还有别的方法吗我从随机林开始，我是这个方法的新手，随机林自己处理空值吗？我如何实现这一点？随机森林是如何做到这一点的？我在哪里可以了解到这一点-任何参考都非常欢迎提前感谢。您是否尝试过在数据集上运行神经网络，即使功能缺失？神经网络不需要所有的特征都存在您可以简单地将神经网络的所有缺失特征值设置为0，因为神经网络看不到0和特

在我的分类问题中，85个特征中的一些特征（~5）大多为空值（>90%）。如何处理这些值？是吗?

1）完全忽略这些列/功能

2）尝试估算这些值，如果是，如何估算

3）还有别的方法吗

我从随机林开始，我是这个方法的新手，随机林自己处理空值吗？我如何实现这一点？随机森林是如何做到这一点的？我在哪里可以了解到这一点-任何参考都非常欢迎

提前感谢。

您是否尝试过在数据集上运行神经网络，即使功能缺失？神经网络不需要所有的特征都存在

您可以简单地将神经网络的所有缺失特征值设置为

，因为神经网络看不到

和

特征缺失之间的差异。你为什么不问？如果将输入值设置为0，则表示来自该输入节点的所有连接都将具有0
值a井：不向连接到该输入节点的隐藏神经元添加任何内容
但是在你尝试之前，先问问你自己这个问题：如果某个特征经常缺失，那么它对数据集预测有什么重要意义吗
 这对SO来说不是一个好问题，因为它a）与编程无关，b）过于宽泛。我建议你自己尝试一下（只要运行它，就很容易看出RF是否处理空值），也可以删除这篇文章，在