Nlp 如何处理包含标称数据的目标变量?

Nlp 如何处理包含标称数据的目标变量?,nlp,classification,text-classification,one-hot-encoding,multiclass-classification,Nlp,Classification,Text Classification,One Hot Encoding,Multiclass Classification,我正在从事一个NLP项目,其目标变量包含七个独特的句子,分别是“励志和发人深省”、“信息丰富”、“感谢和赞赏”和其他四个句子。就我的理解而言,目标变量因为我们无法在它们之间建立定量比较。所以我的问题是什么是编码这些变量的最好方法?如果我用一个热编码对它进行编码,那么问题将是多类分类?在分类中,不管类实际代表什么,学习算法都将每个类视为分类的。换句话说,类的名称是字符串、字符还是数字都不会改变模型。这就是为什么最常见的选择是将类简单地表示为整数:1,2,3,。。。例如,在scikit中,可以使用

我正在从事一个NLP项目,其目标变量包含七个独特的句子,分别是“励志和发人深省”、“信息丰富”、“感谢和赞赏”和其他四个句子。就我的理解而言,目标变量因为我们无法在它们之间建立定量比较。所以我的问题是什么是编码这些变量的最好方法?如果我用一个热编码对它进行编码,那么问题将是多类分类?

在分类中,不管类实际代表什么,学习算法都将每个类视为分类的。换句话说,类的名称是字符串、字符还是数字都不会改变模型。这就是为什么最常见的选择是将类简单地表示为整数:1,2,3,。。。例如,在scikit中,可以使用

使用一个热编码是个坏主意,因为这会导致问题。这将使模型的问题更加复杂,很可能导致性能降低,或者需要更多的数据才能达到与常规分类相同的性能。这是因为在多标签问题中可能有更多的组合,在这种情况下,更高级别的复杂性是没有意义的,因为只能有一个类