Keras 在多类文本分类中,如何处理不在训练集中的测试集标签?

Keras 在多类文本分类中,如何处理不在训练集中的测试集标签?,keras,scikit-learn,deep-learning,nlp,Keras,Scikit Learn,Deep Learning,Nlp,我正在使用一个包含训练集和测试集的多类文本分类数据集。培训集中大约有470个唯一标签,测试集中大约有250个唯一标签。(这470+250个独特的标签来自一组400万大小的标签。) 大约有30个标签只在测试集中,而不在训练集中 我是否需要将每个标签编码为一个400万而不是450万的热向量?这样我就可以处理丢失的30个标签你的模型无法学习到它没有看到的标签!理想情况下,在机器学习中,假设训练集和测试集是从相同的基本分布中采样的。模型只能学习你教给它的东西,所以你需要确保你在类似的数据上训练和测试它

我正在使用一个包含训练集和测试集的多类文本分类数据集。培训集中大约有470个唯一标签,测试集中大约有250个唯一标签。(这470+250个独特的标签来自一组400万大小的标签。

大约有30个标签只在测试集中,而不在训练集中


我是否需要将每个标签编码为一个400万而不是450万的热向量?这样我就可以处理丢失的30个标签

你的模型无法学习到它没有看到的标签!理想情况下,在机器学习中,假设训练集和测试集是从相同的基本分布中采样的。模型只能学习你教给它的东西,所以你需要确保你在类似的数据上训练和测试它


您可以尝试将两个集合合并在一起,然后将它们重新拆分为一个训练集和测试集,以便它们都有相同数量的类。此外,确保您有足够的数据。你的模型无法从它看过一两次的课程中学习。为了让模型学习500门课程,你应该有数十万个样本!如果没有,可以尝试将一些类合并在一起。

模型无法预测从未见过的标签。所以,你们应该丢弃那个些有这样标签的条目。在训练集中大约有470个唯一标签,在测试集中大约有250个唯一标签。(这470+250个独特标签来自一组400万大小的标签。)培训集中约有470个独特标签,测试集中约有250个独特标签。(这470+250个独特标签来自一组400万大小的标签。)