Machine learning 什么是训练和测试数据集

Machine learning 什么是训练和测试数据集,machine-learning,dataset,data-science,kaggle,Machine Learning,Dataset,Data Science,Kaggle,我要从卡格尔开始 我刚刚经历了各种数据科学和机器学习竞赛 我已经看到,对于每一场比赛,他们都上传了训练数据、测试数据和原始数据 有人能告诉我这些是什么,以及我们在解决问题时如何使用这些数据集。培训数据:用于培训人工智能。 测试数据:用于评估使用先前训练数据的AI的强度。 原始数据:嗯,这是原始数据 在进行机器学习时,人工智能必须以某种方式进行训练。这就是为什么我们将数据分解,并为AI提供原始数据(训练数据)的子集,以便AI可以学习。我们用测试数据测试它的知识,然后一旦完成,我们就可以向它提供原始

我要从卡格尔开始

我刚刚经历了各种数据科学和机器学习竞赛

我已经看到,对于每一场比赛,他们都上传了训练数据测试数据原始数据


有人能告诉我这些是什么,以及我们在解决问题时如何使用这些数据集。

培训数据:用于培训人工智能。
测试数据:用于评估使用先前训练数据的AI的强度。
原始数据:嗯,这是原始数据


在进行机器学习时,人工智能必须以某种方式进行训练。这就是为什么我们将数据分解,并为AI提供原始数据(训练数据)的子集,以便AI可以学习。我们用测试数据测试它的知识,然后一旦完成,我们就可以向它提供原始数据并查看它是如何工作的。

在ML中,原始数据集分为训练集和测试集(有时也包括交叉验证集)

训练集: 用于拟合算法参数的数据集

测试集: 用于评估算法参数准确性的数据集

训练集、测试集的划分通常分别为80%、20%或70%、30%。 建议在进行分割之前将原始数据集随机化。
请始终记住,在ML中,用于拟合参数的数据集的误差始终较低。切勿使用训练集评估您的算法。

要评估经过训练的模型在看不见的数据上的性能, 您必须将原始数据拆分为单独的训练集和测试集

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test= train_test_split(features_all,pred_var,test_size=0.3, random_state=42)
这样,您就可以将特性和y阵列随机拆分为30%的测试数据和70%的训练数据。然后,拟合回归模型,如下所示

from sklearn.linear_model import LinearRegression
reg = LinearRegression()
reg.fit(X_train,y_train) # fit regressor to training data
y_pred = reg.predict(X_test) # predict on test data

希望这能有所帮助。

我投票结束这个问题,因为它与主题相关。您可以在或上提出这些问题。