Machine learning 什么是训练和测试数据集_Machine Learning_Dataset_Data Science_Kaggle

Machine learning 什么是训练和测试数据集

machine-learning

Machine learning 什么是训练和测试数据集,machine-learning,dataset,data-science,kaggle,Machine Learning,Dataset,Data Science,Kaggle,我要从卡格尔开始我刚刚经历了各种数据科学和机器学习竞赛我已经看到，对于每一场比赛，他们都上传了训练数据、测试数据和原始数据有人能告诉我这些是什么，以及我们在解决问题时如何使用这些数据集。培训数据：用于培训人工智能。测试数据：用于评估使用先前训练数据的AI的强度。原始数据：嗯，这是原始数据在进行机器学习时，人工智能必须以某种方式进行训练。这就是为什么我们将数据分解，并为AI提供原始数据（训练数据）的子集，以便AI可以学习。我们用测试数据测试它的知识，然后一旦完成，我们就可以向它提供原始

我要从卡格尔开始

我刚刚经历了各种数据科学和机器学习竞赛

我已经看到，对于每一场比赛，他们都上传了训练数据、测试数据和原始数据

有人能告诉我这些是什么，以及我们在解决问题时如何使用这些数据集。

培训数据：用于培训人工智能。
测试数据：用于评估使用先前训练数据的AI的强度。
原始数据：嗯，这是原始数据

在进行机器学习时，人工智能必须以某种方式进行训练。这就是为什么我们将数据分解，并为AI提供原始数据（训练数据）的子集，以便AI可以学习。我们用测试数据测试它的知识，然后一旦完成，我们就可以向它提供原始数据并查看它是如何工作的。

在ML中，原始数据集分为训练集和测试集（有时也包括交叉验证集）

训练集：用于拟合算法参数的数据集

测试集：用于评估算法参数准确性的数据集

训练集、测试集的划分通常分别为80%、20%或70%、30%。建议在进行分割之前将原始数据集随机化。

请始终记住，在ML中，用于拟合参数的数据集的误差始终较低。切勿使用训练集评估您的算法。

要评估经过训练的模型在看不见的数据上的性能，您必须将原始数据拆分为单独的训练集和测试集

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test= train_test_split(features_all,pred_var,test_size=0.3, random_state=42)

这样，您就可以将特性和y阵列随机拆分为30%的测试数据和70%的训练数据。然后，拟合回归模型，如下所示

from sklearn.linear_model import LinearRegression
reg = LinearRegression()
reg.fit(X_train,y_train) # fit regressor to training data
y_pred = reg.predict(X_test) # predict on test data

希望这能有所帮助。

我投票结束这个问题，因为它与主题相关。您可以在或上提出这些问题。