Python 只有未来数据具有重要缺失值的分类问题？_Python_Machine Learning_Classification

Python 只有未来数据具有重要缺失值的分类问题？

python machine-learning

Python 只有未来数据具有重要缺失值的分类问题？,python,machine-learning,classification,Python,Machine Learning,Classification,我正试图用梯度提升机来处理二元分类问题给出下表中的4列，其中ColumnA是我试图预测的二进制值（0,1） | ColumnA | ColumnB | ColumnC | ColumnD | ... | | 0 | | 1 | 在整个训练数据中，我计算了平均值，发现a为0和1时，B列的平均值之间存在很大差异，因此根据我的解释，这意味着该值在预测中应该起到非常重要的作用然而，当涉及到我试图分类的未来数据时，我没有关于ColumnB的任何信息。我这

我正试图用梯度提升机来处理二元分类问题

给出下表中的4列，其中ColumnA是我试图预测的二进制值（0,1）

|  ColumnA  |  ColumnB  |  ColumnC  | ColumnD  | ... |
|     0     |
|     1     |

在整个训练数据中，我计算了平均值，发现a为0和1时，B列的平均值之间存在很大差异，因此根据我的解释，这意味着该值在预测中应该起到非常重要的作用

然而，当涉及到我试图分类的未来数据时，我没有关于ColumnB的任何信息。我这里的问题是，简单地取columnB的平均值并将其作为未来数据的值是有意义的，还是应该完全删除columnB，因为我无法在未来的值中获取该数据

目前，我认为使用平均值作为默认值是有意义的，但既然这否定了未来预测中列的有效性，那么也许我这样做是徒劳的？

你问题的答案取决于两件事，首先，GB模型给予B列的相对权重或重要性。如果模型给予B列的权重很大，并且它是训练集中的一个主要决定因素，那么用平均值填充空值或缺失值可能会导致错误的预测。第二件事是

列B

上缺少的值的数量。如果该列中始终缺少大量数据，例如30%或更多，则使用该列是没有意义的，因为模型不可靠，并且您的训练数据在B列中没有空值，因此模型从未见过空值的数据，并且在进行预测时会感到困惑

在继续之前，应测试模型中的特征重要性。检查不带

栏B的准确性

。最后一个解决方案或高级解决方案是使用一个投票系统模型，其中您有多个模型，一些有columnB，一些没有columnB