Machine learning 增加训练样本会降低最大熵分类器的精度_Machine Learning_Nlp_Text Classification

Machine learning 增加训练样本会降低最大熵分类器的精度

machine-learning nlp

Machine learning 增加训练样本会降低最大熵分类器的精度,machine-learning,nlp,text-classification,Machine Learning,Nlp,Text Classification,我正在使用MaxEnt词性标记器对语言语料库进行词性标记分类。我从理论上知道，增加训练示例通常会提高分类精度。但是，我观察到，在我的例子中，如果我取3/4的数据进行训练，休息进行测试，标记器会给出最大f测量值。如果我将训练数据的大小增加到85或90℅ 在整个语料库中，准确率会降低。即使将训练数据大小减少到50℅ 对于完整语料库，准确率会降低我想知道，随着训练示例的增加，精确度降低的可能原因。我怀疑，在简化测试集中，您选择了极端样本，并向训练集中添加了更多常规样本，然后您减少了模型知道的测试样本

我正在使用MaxEnt词性标记器对语言语料库进行词性标记分类。我从理论上知道，增加训练示例通常会提高分类精度。但是，我观察到，在我的例子中，如果我取3/4的数据进行训练，休息进行测试，标记器会给出最大f测量值。如果我将训练数据的大小增加到85或90℅ 在整个语料库中，准确率会降低。即使将训练数据大小减少到50℅ 对于完整语料库，准确率会降低

我想知道，随着训练示例的增加，精确度降低的可能原因。

我怀疑，在简化测试集中，您选择了极端样本，并向训练集中添加了更多常规样本，然后您减少了模型知道的测试样本数。

我怀疑在简化测试集中测试集您选择了极端样本，并将更多常规样本添加到训练集中，然后减少了模型知道的测试样本数。

看起来测试数据不是固定的（当您增加训练数据大小时）。要么使用1/4的数据作为测试，要么使用1/10的数据。这不是苹果对苹果的比较。您能否修复测试数据并再次测量性能？或者你可以做k倍交叉验证，增加k。并报告您所看到的。看起来您的测试数据不是固定的（当您增加训练数据大小时）。要么使用1/4的数据作为测试，要么使用1/10的数据。这不是苹果对苹果的比较。您能否修复测试数据并再次测量性能？或者你可以做k倍交叉验证，增加k。报告你看到了什么。