Python 当只有一部分培训/测试数据生成可靠的预测时,该怎么办?

Python 当只有一部分培训/测试数据生成可靠的预测时,该怎么办?,python,machine-learning,scikit-learn,Python,Machine Learning,Scikit Learn,我有一个关于机器学习的一般性问题,可以应用于任何算法。假设我有一个特别的问题,让我们说足球队输赢预测。我选择的特征是每个玩家在比赛前的睡眠时间,新闻报道中的情绪分析等等 在这种情况下,有一种模式或相关性(只有机器学习算法才能发现)只发生在5%左右的时间。但是当它发生的时候,它对即将到来的比赛是非常有预测性的 如何设置机器学习算法来处理这样的情况,即它能够将大多数样本作为噪声丢弃。例如,考虑二元支持向量机。如果有一种方法可以丢弃大多数“嘈杂”样本,那么过度拟合就会少很多,因为超平面不必消除这些样本

我有一个关于机器学习的一般性问题,可以应用于任何算法。假设我有一个特别的问题,让我们说足球队输赢预测。我选择的特征是每个玩家在比赛前的睡眠时间,新闻报道中的情绪分析等等

在这种情况下,有一种模式或相关性(只有机器学习算法才能发现)只发生在5%左右的时间。但是当它发生的时候,它对即将到来的比赛是非常有预测性的

如何设置机器学习算法来处理这样的情况,即它能够将大多数样本作为噪声丢弃。例如,考虑二元支持向量机。如果有一种方法可以丢弃大多数“嘈杂”样本,那么过度拟合就会少很多,因为超平面不必消除这些样本中的误差

在这种情况下,正则化会有所帮助,但由于预测信息的百分比非常低,我们有没有办法对算法进行编码,在训练中丢弃这些样本,并拒绝预测某些测试数据样本

我也读过置信区间,但它们对我来说更像是一种分析工具,而不是用于算法的东西

我在想,使用另一个使用相同特性的ml算法来决定哪些测试样本是保留的可能是一个好主意

如能以任何机器学习算法(如svm、神经网络、随机森林)为例给出任何答案,将不胜感激。任何关于去哪里找的建议都会很好(谷歌通常是我的朋友,但这次不是)。请让我知道我是否能把这个问题改得更好。谢谢