Machine learning 增加训练样本会降低最大熵分类器的精度

Machine learning 增加训练样本会降低最大熵分类器的精度,machine-learning,nlp,text-classification,Machine Learning,Nlp,Text Classification,我正在使用MaxEnt词性标记器对语言语料库进行词性标记分类。我从理论上知道,增加训练示例通常会提高分类精度。但是,我观察到,在我的例子中,如果我取3/4的数据进行训练,休息进行测试,标记器会给出最大f测量值。如果我将训练数据的大小增加到85或90℅ 在整个语料库中,准确率会降低。即使将训练数据大小减少到50℅ 对于完整语料库,准确率会降低 我想知道,随着训练示例的增加,精确度降低的可能原因。我怀疑,在简化测试集中,您选择了极端样本,并向训练集中添加了更多常规样本,然后您减少了模型知道的测试样本

我正在使用MaxEnt词性标记器对语言语料库进行词性标记分类。我从理论上知道,增加训练示例通常会提高分类精度。但是,我观察到,在我的例子中,如果我取3/4的数据进行训练,休息进行测试,标记器会给出最大f测量值。如果我将训练数据的大小增加到85或90℅ 在整个语料库中,准确率会降低。即使将训练数据大小减少到50℅ 对于完整语料库,准确率会降低


我想知道,随着训练示例的增加,精确度降低的可能原因。

我怀疑,在简化测试集中,您选择了极端样本,并向训练集中添加了更多常规样本,然后您减少了模型知道的测试样本数。

我怀疑在简化测试集中测试集您选择了极端样本,并将更多常规样本添加到训练集中,然后减少了模型知道的测试样本数。

看起来测试数据不是固定的(当您增加训练数据大小时)。要么使用1/4的数据作为测试,要么使用1/10的数据。这不是苹果对苹果的比较。您能否修复测试数据并再次测量性能?或者你可以做k倍交叉验证,增加k。并报告您所看到的。看起来您的测试数据不是固定的(当您增加训练数据大小时)。要么使用1/4的数据作为测试,要么使用1/10的数据。这不是苹果对苹果的比较。您能否修复测试数据并再次测量性能?或者你可以做k倍交叉验证,增加k。报告你看到了什么。