Python 如果分类列在列集合中有多个值,但在测试数据中只有一个值,该怎么办?这样的功能在模特训练中有用吗?

Python 如果分类列在列集合中有多个值,但在测试数据中只有一个值,该怎么办?这样的功能在模特训练中有用吗?,python,machine-learning,regression,data-science,feature-selection,Python,Machine Learning,Regression,Data Science,Feature Selection,我试图解决一个回归问题,在我的一个特征中,可以在序列集中使用两个值('1','0'),但在测试数据中只能值为'1'。直观地说,包含此功能对我来说似乎是错误的,但我无法找到具体的逻辑来支持我的假设。好吧,这取决于您总共拥有多少功能。如果数量很少(比如少于五个),那么这一单一特征很可能在分类中扮演重要角色。在这种情况下,我会说你有“数据不匹配”的问题;这意味着您的培训和测试数据来自不同的发行版。解决此问题的一个简单方法是将两个集合放在一起,将整个集合洗牌,然后再次拆分数据。实际上,测试数据的性质是,

我试图解决一个回归问题,在我的一个特征中,可以在序列集中使用两个值('1','0'),但在测试数据中只能值为'1'。直观地说,包含此功能对我来说似乎是错误的,但我无法找到具体的逻辑来支持我的假设。

好吧,这取决于您总共拥有多少功能。如果数量很少(比如少于五个),那么这一单一特征很可能在分类中扮演重要角色。在这种情况下,我会说你有“数据不匹配”的问题;这意味着您的培训和测试数据来自不同的发行版。解决此问题的一个简单方法是将两个集合放在一起,将整个集合洗牌,然后再次拆分数据。

实际上,测试数据的性质是,它只有一个值,而不是偶然的不平衡。我总共有11个功能,包括数字和分类功能。在这种情况下,没有必要在您的培训集中保留该功能。请记住,使您的训练集和测试集来自几乎相似的分布是有帮助的,有时称为“人工数据合成”。一个例子是对训练数据应用裁剪和旋转等增强,使其看起来更类似于测试距离(通过覆盖更多的输入变量)