Statistics 如何评估和解释机器学习中的训练模型?

Statistics 如何评估和解释机器学习中的训练模型?,statistics,nlp,machine-learning,artificial-intelligence,data-mining,Statistics,Nlp,Machine Learning,Artificial Intelligence,Data Mining,我是机器学习新手。我做了一个测试,但不知道如何解释和评估 案例1: 我首先将数据(数据A,约8000字)随机分成10组(a1..a10)。在每个小组中,我使用90%的数据构建ngram模型。然后在同一组的其他10%数据上测试该ngram模型。结果精度低于10%。其他9组采用相同的方法(分别构建模型,并分别对该组剩余的10%数据进行测试)。所有结果的准确率约为10%。(这是10倍交叉验证吗?) 案例2: 我首先基于大约8000字的整个数据集(数据a)构建了一个ngram模型。然后我把A分成10组(

我是机器学习新手。我做了一个测试,但不知道如何解释和评估

案例1:

我首先将数据(数据A,约8000字)随机分成10组(a1..a10)。在每个小组中,我使用90%的数据构建ngram模型。然后在同一组的其他10%数据上测试该ngram模型。结果精度低于10%。其他9组采用相同的方法(分别构建模型,并分别对该组剩余的10%数据进行测试)。所有结果的准确率约为10%。(这是10倍交叉验证吗?)

案例2:

我首先基于大约8000字的整个数据集(数据a)构建了一个ngram模型。然后我把A分成10组(a1,a2,a3,a10),当然是随机的。然后我使用这个ngram分别测试a1、a2、a10。我发现该模型在所有组中的准确率几乎为96%

如何解释这种情况。 提前谢谢

  • 是的,10倍交叉验证

  • 这种测试方法具有在训练集上测试的常见缺陷。这就是准确性被夸大的原因。这是不现实的,因为在现实生活中,您的测试实例是新颖的,并且以前系统没有看到过

  • N-折叠交叉验证是一种有效的评估方法,在许多工作中使用

  • 是的,10倍交叉验证

  • 这种测试方法具有在训练集上测试的常见缺陷。这就是准确性被夸大的原因。这是不现实的,因为在现实生活中,您的测试实例是新颖的,并且以前系统没有看到过


  • N倍交叉验证是许多作品中使用的一种有效评估方法。

    您需要仔细阅读过拟合的主题


    您描述的情况给人的印象是,您的ngram模型严重过度拟合:它可以“记忆”96%的训练数据。但是,当对适当的子集进行训练时,它只能对10%的未知数据进行预测。

    您需要仔细阅读过拟合的主题

    您描述的情况给人的印象是,您的ngram模型严重过度拟合:它可以“记忆”96%的训练数据。但当在适当的子集上进行训练时,它只能对未知数据实现10%的预测

  • 这称为10倍交叉验证
  • 这称为10倍交叉验证