Classification 具有大量缺失数据的分类

Classification 具有大量缺失数据的分类,classification,svm,missing-data,Classification,Svm,Missing Data,当建立一个模型来分类一个学生是否会被某个特殊项目录取时,主要特征包括: gender | Ethnicity | State | Zip code | Test score | Education | Job title | Current gpa | Admission 由于数据是在线收集的,因此许多功能缺少大量数据。特征“测试分数”对录取决定应该很重要,但它忽略了大约80%。似乎插补是不实际的 是否应将其作为一个特征,并使用EM或贝叶斯网络、SVM等对缺失数据不敏感的算法,或在建立模型时直

当建立一个模型来分类一个学生是否会被某个特殊项目录取时,主要特征包括:

gender | Ethnicity | State | Zip code | Test score | Education | Job title | Current gpa | Admission
由于数据是在线收集的,因此许多功能缺少大量数据。特征“测试分数”对录取决定应该很重要,但它忽略了大约80%。似乎插补是不实际的


是否应将其作为一个特征,并使用EM或贝叶斯网络、SVM等对缺失数据不敏感的算法,或在建立模型时直接删除该特征?有什么建议吗?

您应该放弃该功能。只有20%的分数存在,考试分数无法平均。也不能添加具有分布的随机值,因为它们是测试分数


您可以尝试用包含这些值的行构建一个模型,看看它是否有效。

您可以尝试通过linkedin寻找更多数据,或者通过发布研究官方信函与招生服务联系,并且您不会共享任何数据。我还认为你可以去掉邮政编码或州,因为两者都表示几乎相同的东西。谢谢你的建议。是的,我只使用了邮政编码和一个热编码。至于收集更多数据,这是一个很好的方法,但不适用于这个特定问题。谢谢。我将探讨这两种方法,填充缺失的值,然后构建模型,另一种方法是删除此功能并构建模型。