Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/324.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 只有未来数据具有重要缺失值的分类问题?_Python_Machine Learning_Classification - Fatal编程技术网

Python 只有未来数据具有重要缺失值的分类问题?

Python 只有未来数据具有重要缺失值的分类问题?,python,machine-learning,classification,Python,Machine Learning,Classification,我正试图用梯度提升机来处理二元分类问题 给出下表中的4列,其中ColumnA是我试图预测的二进制值(0,1) | ColumnA | ColumnB | ColumnC | ColumnD | ... | | 0 | | 1 | 在整个训练数据中,我计算了平均值,发现a为0和1时,B列的平均值之间存在很大差异,因此根据我的解释,这意味着该值在预测中应该起到非常重要的作用 然而,当涉及到我试图分类的未来数据时,我没有关于ColumnB的任何信息。我这

我正试图用梯度提升机来处理二元分类问题

给出下表中的4列,其中ColumnA是我试图预测的二进制值(0,1)

|  ColumnA  |  ColumnB  |  ColumnC  | ColumnD  | ... |
|     0     |
|     1     |
在整个训练数据中,我计算了平均值,发现a为0和1时,B列的平均值之间存在很大差异,因此根据我的解释,这意味着该值在预测中应该起到非常重要的作用

然而,当涉及到我试图分类的未来数据时,我没有关于ColumnB的任何信息。我这里的问题是,简单地取columnB的平均值并将其作为未来数据的值是有意义的,还是应该完全删除columnB,因为我无法在未来的值中获取该数据


目前,我认为使用平均值作为默认值是有意义的,但既然这否定了未来预测中列的有效性,那么也许我这样做是徒劳的?

你问题的答案取决于两件事,首先,GB模型给予B列的相对权重或重要性。如果模型给予B列的权重很大,并且它是训练集中的一个主要决定因素,那么用平均值填充空值或缺失值可能会导致错误的预测。第二件事是
列B
上缺少的值的数量。如果该列中始终缺少大量数据,例如30%或更多,则使用该列是没有意义的,因为模型不可靠,并且您的训练数据在B列中没有空值,因此模型从未见过空值的数据,并且在进行预测时会感到困惑

在继续之前,应测试模型中的特征重要性。检查不带
栏B的准确性
。最后一个解决方案或高级解决方案是使用一个投票系统模型,其中您有多个模型,一些有columnB,一些没有columnB