Python 当只有一部分培训/测试数据生成可靠的预测时，该怎么办？_Python_Machine Learning_Scikit Learn

Python 当只有一部分培训/测试数据生成可靠的预测时，该怎么办？

python machine-learning scikit-learn

Python 当只有一部分培训/测试数据生成可靠的预测时，该怎么办？,python,machine-learning,scikit-learn,Python,Machine Learning,Scikit Learn,我有一个关于机器学习的一般性问题，可以应用于任何算法。假设我有一个特别的问题，让我们说足球队输赢预测。我选择的特征是每个玩家在比赛前的睡眠时间，新闻报道中的情绪分析等等在这种情况下，有一种模式或相关性（只有机器学习算法才能发现）只发生在5%左右的时间。但是当它发生的时候，它对即将到来的比赛是非常有预测性的如何设置机器学习算法来处理这样的情况，即它能够将大多数样本作为噪声丢弃。例如，考虑二元支持向量机。如果有一种方法可以丢弃大多数“嘈杂”样本，那么过度拟合就会少很多，因为超平面不必消除这些样本

我有一个关于机器学习的一般性问题，可以应用于任何算法。假设我有一个特别的问题，让我们说足球队输赢预测。我选择的特征是每个玩家在比赛前的睡眠时间，新闻报道中的情绪分析等等

在这种情况下，有一种模式或相关性（只有机器学习算法才能发现）只发生在5%左右的时间。但是当它发生的时候，它对即将到来的比赛是非常有预测性的

如何设置机器学习算法来处理这样的情况，即它能够将大多数样本作为噪声丢弃。例如，考虑二元支持向量机。如果有一种方法可以丢弃大多数“嘈杂”样本，那么过度拟合就会少很多，因为超平面不必消除这些样本中的误差

在这种情况下，正则化会有所帮助，但由于预测信息的百分比非常低，我们有没有办法对算法进行编码，在训练中丢弃这些样本，并拒绝预测某些测试数据样本

我也读过置信区间，但它们对我来说更像是一种分析工具，而不是用于算法的东西

我在想，使用另一个使用相同特性的ml算法来决定哪些测试样本是保留的可能是一个好主意

如能以任何机器学习算法（如svm、神经网络、随机森林）为例给出任何答案，将不胜感激。任何关于去哪里找的建议都会很好（谷歌通常是我的朋友，但这次不是）。请让我知道我是否能把这个问题改得更好。谢谢