Python 利用多数据集拟合改进单数据集的模型预测

Python 利用多数据集拟合改进单数据集的模型预测,python,machine-learning,scikit-learn,classification,modeling,Python,Machine Learning,Scikit Learn,Classification,Modeling,有一个项目我正在工作,遇到了一个问题。基本上,我认为这些点分散在x/y图上。我有一个测试点,在那里我得到分类的目标数据(y)(数字从1到6)。我有很多点,我有深度索引数据,有一些功能。这些点的问题是,我没有在每个点上获得很多数据(可能是100点) 我使用离测试点最近的点来拟合模型,然后尝试将其推广到距离更远的其他点。这并没有给我带来好的结果 我知道没有太多的数据可以拟合,所以我试图通过在测试点附近添加一组“k”点来改进模型 这些点都共享相同的列,所以我尝试垂直添加,但是我的索引与预测变量y不匹配

有一个项目我正在工作,遇到了一个问题。基本上,我认为这些点分散在x/y图上。我有一个测试点,在那里我得到分类的目标数据(y)(数字从1到6)。我有很多点,我有深度索引数据,有一些功能。这些点的问题是,我没有在每个点上获得很多数据(可能是100点)

我使用离测试点最近的点来拟合模型,然后尝试将其推广到距离更远的其他点。这并没有给我带来好的结果

我知道没有太多的数据可以拟合,所以我试图通过在测试点附近添加一组“k”点来改进模型

这些点都共享相同的列,所以我尝试垂直添加,但是我的索引与预测变量y不匹配

我尝试在最后使用一个表示特定点id的后缀来表示它们,但是当我再次尝试使用组合特征预测模型时,我得到了一个关于输入特征数量的错误(对于一个点)

基本上,我想做的是:

model.fit([X_1,X_2,X_3,X_4],y)

model.predict(X_5)
其中: 所有要素均为数字(浮动)

X_1.columns=X_i.columns

每个X矩阵大约有100个点长,有一个连续的索引[0:100]

对于每组点,我只有一个测试点(有100个观察值),所以我必须使用尽可能多的接近测试点的数据

有没有其他模型或技术可以用于此?我对NN模型做了更多的研究(不太熟悉,所以我更愿意避免),发现Keras能够使用其函数API获取多个输入以进行拟合,但我能在拟合多个输入后仅使用一个输入进行预测吗


您能提供更多关于功能/类别以及您使用的型号的信息吗?这会使事情更容易理解

然而,根据你到目前为止所说的,我可以给出两点建议

  • 为了更好地衡量模型的通用性,您应该有多个测试点。看

  • 听起来你在用k-近邻法。如果您还没有,使用sklearn实现将节省大量时间,并且您可以轻松地使用不同的超参数进行实验:

  • 其他技术:我喜欢从XGBoost或Random Forest开始,因为这些方法只需要很少的调整,而且相当健壮。然而,在一个小数据集上建模并没有灵丹妙药。最好的办法是收集更多的数据,或者如果不可能,您需要深入了解并真正了解您的数据(识别异常值、绘制直方图/KDE等)


  • 您能提供更多关于功能/类别以及您使用的模型的信息吗?这会使事情更容易理解

    然而,根据你到目前为止所说的,我可以给出两点建议

  • 为了更好地衡量模型的通用性,您应该有多个测试点。看

  • 听起来你在用k-近邻法。如果您还没有,使用sklearn实现将节省大量时间,并且您可以轻松地使用不同的超参数进行实验:

  • 其他技术:我喜欢从XGBoost或Random Forest开始,因为这些方法只需要很少的调整,而且相当健壮。然而,在一个小数据集上建模并没有灵丹妙药。最好的办法是收集更多的数据,或者如果不可能,您需要深入了解并真正了解您的数据(识别异常值、绘制直方图/KDE等)


  • 这个问题很模糊,不符合这个网站的主题标准。请将其编辑为提供,或改为发布到。也就是说,根据你的描述,似乎你已经独立发明了,所以这可能是一个开始研究HI的好途径。我试着给它添加一些例子。我知道这是非常模糊的,不幸的是,我不能提供任何数据,因为它是受保护的,不是公开的。这个问题是模糊的,并没有真正达到标准,在这个网站的主题。请将其编辑为提供,或改为发布到。也就是说,根据你的描述,似乎你已经独立发明了,所以这可能是一个开始研究HI的好途径。我试着给它添加一些例子。我知道这是非常模糊的,不幸的是我不能提供任何数据,因为它是受保护的,不是公开的。嗨!谢谢你的反馈。我编辑了这篇文章来添加一些澄清,我理解这是含糊不清的,我实际上不能发布任何数据或代码,但希望它能给出一些澄清。我能够很好地将它适合于一组数据,但是由于数据量小,它不能概括它。我想通过向模型的拟合添加更多的数据集来人为地增加数据大小。嗨!谢谢你的反馈。我编辑了这篇文章来添加一些澄清,我理解这是含糊不清的,我实际上不能发布任何数据或代码,但希望它能给出一些澄清。我能够很好地将它适合于一组数据,但是由于数据量小,它不能概括它。我想通过向模型的拟合添加更多的数据集来人为地增加数据大小。