Nlp 如何处理包含标称数据的目标变量？_Nlp_Classification_Text Classification_One Hot Encoding_Multiclass Classification

Nlp 如何处理包含标称数据的目标变量？

nlp

Nlp 如何处理包含标称数据的目标变量？,nlp,classification,text-classification,one-hot-encoding,multiclass-classification,Nlp,Classification,Text Classification,One Hot Encoding,Multiclass Classification,我正在从事一个NLP项目，其目标变量包含七个独特的句子，分别是“励志和发人深省”、“信息丰富”、“感谢和赞赏”和其他四个句子。就我的理解而言，目标变量因为我们无法在它们之间建立定量比较。所以我的问题是什么是编码这些变量的最好方法？如果我用一个热编码对它进行编码，那么问题将是多类分类？在分类中，不管类实际代表什么，学习算法都将每个类视为分类的。换句话说，类的名称是字符串、字符还是数字都不会改变模型。这就是为什么最常见的选择是将类简单地表示为整数：1,2,3，。。。例如，在scikit中，可以使用

我正在从事一个NLP项目，其目标变量包含七个独特的句子，分别是“励志和发人深省”、“信息丰富”、“感谢和赞赏”和其他四个句子。就我的理解而言，目标变量因为我们无法在它们之间建立定量比较。所以我的问题是什么是编码这些变量的最好方法？如果我用一个热编码对它进行编码，那么问题将是多类分类？

在分类中，不管类实际代表什么，学习算法都将每个类视为分类的。换句话说，类的名称是字符串、字符还是数字都不会改变模型。这就是为什么最常见的选择是将类简单地表示为整数：1,2,3，。。。例如，在scikit中，可以使用

使用一个热编码是个坏主意，因为这会导致问题。这将使模型的问题更加复杂，很可能导致性能降低，或者需要更多的数据才能达到与常规分类相同的性能。这是因为在多标签问题中可能有更多的组合，在这种情况下，更高级别的复杂性是没有意义的，因为只能有一个类