Keras 在多类文本分类中，如何处理不在训练集中的测试集标签？_Keras_Scikit Learn_Deep Learning_Nlp

Keras 在多类文本分类中，如何处理不在训练集中的测试集标签？

keras scikit-learn deep-learning nlp

Keras 在多类文本分类中，如何处理不在训练集中的测试集标签？,keras,scikit-learn,deep-learning,nlp,Keras,Scikit Learn,Deep Learning,Nlp,我正在使用一个包含训练集和测试集的多类文本分类数据集。培训集中大约有470个唯一标签，测试集中大约有250个唯一标签。（这470+250个独特的标签来自一组400万大小的标签。）大约有30个标签只在测试集中，而不在训练集中我是否需要将每个标签编码为一个400万而不是450万的热向量？这样我就可以处理丢失的30个标签你的模型无法学习到它没有看到的标签！理想情况下，在机器学习中，假设训练集和测试集是从相同的基本分布中采样的。模型只能学习你教给它的东西，所以你需要确保你在类似的数据上训练和测试它

我正在使用一个包含训练集和测试集的多类文本分类数据集。培训集中大约有470个唯一标签，测试集中大约有250个唯一标签。（这470+250个独特的标签来自一组400万大小的标签。）

大约有30个标签只在测试集中，而不在训练集中

我是否需要将每个标签编码为一个400万而不是450万的热向量？这样我就可以处理丢失的30个标签

你的模型无法学习到它没有看到的标签！理想情况下，在机器学习中，假设训练集和测试集是从相同的基本分布中采样的。模型只能学习你教给它的东西，所以你需要确保你在类似的数据上训练和测试它

您可以尝试将两个集合合并在一起，然后将它们重新拆分为一个训练集和测试集，以便它们都有相同数量的类。此外，确保您有足够的数据。你的模型无法从它看过一两次的课程中学习。为了让模型学习500门课程，你应该有数十万个样本！如果没有，可以尝试将一些类合并在一起。

模型无法预测从未见过的标签。所以，你们应该丢弃那个些有这样标签的条目。在训练集中大约有470个唯一标签，在测试集中大约有250个唯一标签。（这470+250个独特标签来自一组400万大小的标签。）培训集中约有470个独特标签，测试集中约有250个独特标签。（这470+250个独特标签来自一组400万大小的标签。）