Python 利用多数据集拟合改进单数据集的模型预测_Python_Machine Learning_Scikit Learn_Classification_Modeling

Python 利用多数据集拟合改进单数据集的模型预测

python machine-learning scikit-learn

Python 利用多数据集拟合改进单数据集的模型预测,python,machine-learning,scikit-learn,classification,modeling,Python,Machine Learning,Scikit Learn,Classification,Modeling,有一个项目我正在工作，遇到了一个问题。基本上，我认为这些点分散在x/y图上。我有一个测试点，在那里我得到分类的目标数据（y）（数字从1到6）。我有很多点，我有深度索引数据，有一些功能。这些点的问题是，我没有在每个点上获得很多数据（可能是100点）我使用离测试点最近的点来拟合模型，然后尝试将其推广到距离更远的其他点。这并没有给我带来好的结果我知道没有太多的数据可以拟合，所以我试图通过在测试点附近添加一组“k”点来改进模型这些点都共享相同的列，所以我尝试垂直添加，但是我的索引与预测变量y不匹配

有一个项目我正在工作，遇到了一个问题。基本上，我认为这些点分散在x/y图上。我有一个测试点，在那里我得到分类的目标数据（y）（数字从1到6）。我有很多点，我有深度索引数据，有一些功能。这些点的问题是，我没有在每个点上获得很多数据（可能是100点）

我使用离测试点最近的点来拟合模型，然后尝试将其推广到距离更远的其他点。这并没有给我带来好的结果

我知道没有太多的数据可以拟合，所以我试图通过在测试点附近添加一组“k”点来改进模型

这些点都共享相同的列，所以我尝试垂直添加，但是我的索引与预测变量y不匹配

我尝试在最后使用一个表示特定点id的后缀来表示它们，但是当我再次尝试使用组合特征预测模型时，我得到了一个关于输入特征数量的错误（对于一个点）

基本上，我想做的是：

model.fit([X_1,X_2,X_3,X_4],y)

model.predict(X_5)

其中：所有要素均为数字（浮动）

X_1.columns=X_i.columns

每个X矩阵大约有100个点长，有一个连续的索引[0:100]

对于每组点，我只有一个测试点（有100个观察值），所以我必须使用尽可能多的接近测试点的数据

有没有其他模型或技术可以用于此？我对NN模型做了更多的研究（不太熟悉，所以我更愿意避免），发现Keras能够使用其函数API获取多个输入以进行拟合，但我能在拟合多个输入后仅使用一个输入进行预测吗

您能提供更多关于功能/类别以及您使用的型号的信息吗？这会使事情更容易理解

然而，根据你到目前为止所说的，我可以给出两点建议

为了更好地衡量模型的通用性，您应该有多个测试点。看

听起来你在用k-近邻法。如果您还没有，使用sklearn实现将节省大量时间，并且您可以轻松地使用不同的超参数进行实验：

其他技术：我喜欢从XGBoost或Random Forest开始，因为这些方法只需要很少的调整，而且相当健壮。然而，在一个小数据集上建模并没有灵丹妙药。最好的办法是收集更多的数据，或者如果不可能，您需要深入了解并真正了解您的数据（识别异常值、绘制直方图/KDE等）

您能提供更多关于功能/类别以及您使用的模型的信息吗？这会使事情更容易理解

然而，根据你到目前为止所说的，我可以给出两点建议

为了更好地衡量模型的通用性，您应该有多个测试点。看

听起来你在用k-近邻法。如果您还没有，使用sklearn实现将节省大量时间，并且您可以轻松地使用不同的超参数进行实验：

这个问题很模糊，不符合这个网站的主题标准。请将其编辑为提供，或改为发布到。也就是说，根据你的描述，似乎你已经独立发明了，所以这可能是一个开始研究HI的好途径。我试着给它添加一些例子。我知道这是非常模糊的，不幸的是，我不能提供任何数据，因为它是受保护的，不是公开的。这个问题是模糊的，并没有真正达到标准，在这个网站的主题。请将其编辑为提供，或改为发布到。也就是说，根据你的描述，似乎你已经独立发明了，所以这可能是一个开始研究HI的好途径。我试着给它添加一些例子。我知道这是非常模糊的，不幸的是我不能提供任何数据，因为它是受保护的，不是公开的。嗨！谢谢你的反馈。我编辑了这篇文章来添加一些澄清，我理解这是含糊不清的，我实际上不能发布任何数据或代码，但希望它能给出一些澄清。我能够很好地将它适合于一组数据，但是由于数据量小，它不能概括它。我想通过向模型的拟合添加更多的数据集来人为地增加数据大小。嗨！谢谢你的反馈。我编辑了这篇文章来添加一些澄清，我理解这是含糊不清的，我实际上不能发布任何数据或代码，但希望它能给出一些澄清。我能够很好地将它适合于一组数据，但是由于数据量小，它不能概括它。我想通过向模型的拟合添加更多的数据集来人为地增加数据大小。