Machine learning 具有文本特征的数据集上的Logistic回归_Machine Learning_Logistic Regression_Feature Engineering

Machine learning 具有文本特征的数据集上的Logistic回归

machine-learning

Machine learning 具有文本特征的数据集上的Logistic回归,machine-learning,logistic-regression,feature-engineering,Machine Learning,Logistic Regression,Feature Engineering,我有一个类似的数据集： category 1 category 2 prediction X a 1 Y b 0 Z b 1 X a 1 Y a 0 Z b 0 X b 1 Y f 1 Z d 1 让我们假设这是三列。我想指出的是，第1列和第2列是文本特征，而不是数字数据。我的输入数据将包含15-20种不同类型的类别1。category 1中的每

我有一个类似的数据集：

category 1  category 2  prediction

    X   a   1
    Y   b   0
    Z   b   1
    X   a   1
    Y   a   0
    Z   b   0
    X   b   1
    Y   f   1
    Z   d   1

让我们假设这是三列。我想指出的是，第1列和第2列是文本特征，而不是数字数据。我的输入数据将包含15-20种不同类型的

类别1

。

category 1

中的每个类型都可以在

category 2

中有一个类型。例如，

可以有两次或三次

类型的条目和两次

类型的条目。第三列是输出。我想在这样一个数据集上训练一个模型，最后在训练模型之后，我想通过任何一个

category 1

category 2

，例如：

-这应该给我一个

或

的预测输出。为此，我打算使用逻辑回归

问题:

既然我有文本数据，我应该使用假人并为每种类型创建一列吗？（例如，既然我有

，

，我是否应该创建三个不同的列并分配

或

我是否可以使用逻辑回归分析，还是它不适合我的应用？（我更希望获得预测概率

）

任何建议都会很有帮助。

如果你的分类是基于每个类别的对数概率，那么你的分类是合适的。对于二元分类，它的结果与可比较的方法没有太大差异

是的，你应该使用你的“傻瓜”来处理分类数据。这被称为“一个热编码”，这是一种电气设计技术，在任何给定的时间，集群中只有一根电线是“热的”（有电流）。对于你发布的数据，你将有三列用于分类1，至少有四列（a、b、d、f）对于类别2。

如果您的分类是基于每个类别中的对数概率进行的，则适合。对于二元分类，其结果与可比方法没有太大差异

是的，你应该使用你的“傻瓜”来处理分类数据。这被称为“一个热编码”，这是一种电气设计技术，在任何给定的时间，集群中只有一根电线是“热的”（有电流）。对于你发布的数据，你将有三列用于分类1，至少有四列（a、b、d、f）对于类别2.

“文本数据”意味着类似电子邮件的数据-我想你的意思是你有“分类数据”。只要您的分类数据属于类

因子

，大多数R模型函数都会为您创建虚拟变量。是的，我很抱歉，我指的是文字，例如说这些是运动、棒球、排球、冰球等的名称。您的意思是说，这些带有文字的列可以作为逻辑回归中的特征传递吗？“文本数据”暗示像电子邮件这样的数据-我想你的意思是你有“分类数据”。只要您的分类数据属于类

因子

，大多数R模型函数都会为您创建虚拟变量。是的，我很抱歉，我指的是文字，例如说这些是运动、棒球、排球、冰球等的名称。您的意思是说，这些带有文字的列可以作为逻辑回归中的特征传递吗？是的，如果是y如果使用R中的内置

glm

方法进行逻辑回归，则只要数据为

factor

是，虚拟编码就会自动进行；如果使用R中的内置

glm

方法进行逻辑回归，则只要数据为

factor

，虚拟编码就会自动进行