Machine learning 具有文本特征的数据集上的Logistic回归

Machine learning 具有文本特征的数据集上的Logistic回归,machine-learning,logistic-regression,feature-engineering,Machine Learning,Logistic Regression,Feature Engineering,我有一个类似的数据集: category 1 category 2 prediction X a 1 Y b 0 Z b 1 X a 1 Y a 0 Z b 0 X b 1 Y f 1 Z d 1 让我们假设这是三列。我想指出的是,第1列和第2列是文本特征,而不是数字数据。我的输入数据将包含15-20种不同类型的类别1。category 1中的每

我有一个类似的数据集:

category 1  category 2  prediction

    X   a   1
    Y   b   0
    Z   b   1
    X   a   1
    Y   a   0
    Z   b   0
    X   b   1
    Y   f   1
    Z   d   1
让我们假设这是三列。我想指出的是,第1列和第2列是文本特征,而不是数字数据。我的输入数据将包含15-20种不同类型的
类别1
category 1
中的每个类型都可以在
category 2
中有一个类型。例如,
X
可以有两次或三次
a
类型的条目和两次
b
类型的条目。第三列是输出。我想在这样一个数据集上训练一个模型,最后在训练模型之后,我想通过任何一个
category 1
&
category 2
,例如:
X
&
a
-这应该给我一个
1
0
的预测输出。为此,我打算使用逻辑回归

问题:

  • 既然我有文本数据,我应该使用假人并为每种类型创建一列吗?(例如,既然我有
    X
    Y
    Z
    ,我是否应该创建三个不同的列并分配
    1
    0

  • 我是否可以使用逻辑回归分析,还是它不适合我的应用?(我更希望获得预测概率
    1

  • 任何建议都会很有帮助。

    如果你的分类是基于每个类别的对数概率,那么你的分类是合适的。对于二元分类,它的结果与可比较的方法没有太大差异

    是的,你应该使用你的“傻瓜”来处理分类数据。这被称为“一个热编码”,这是一种电气设计技术,在任何给定的时间,集群中只有一根电线是“热的”(有电流)。对于你发布的数据,你将有三列用于分类1,至少有四列(a、b、d、f)对于类别2。

    如果您的分类是基于每个类别中的对数概率进行的,则适合。对于二元分类,其结果与可比方法没有太大差异


    是的,你应该使用你的“傻瓜”来处理分类数据。这被称为“一个热编码”,这是一种电气设计技术,在任何给定的时间,集群中只有一根电线是“热的”(有电流)。对于你发布的数据,你将有三列用于分类1,至少有四列(a、b、d、f)对于类别2.

    “文本数据”意味着类似电子邮件的数据-我想你的意思是你有“分类数据”。只要您的分类数据属于类
    因子
    ,大多数R模型函数都会为您创建虚拟变量。是的,我很抱歉,我指的是文字,例如说这些是运动、棒球、排球、冰球等的名称。您的意思是说,这些带有文字的列可以作为逻辑回归中的特征传递吗?“文本数据”暗示像电子邮件这样的数据-我想你的意思是你有“分类数据”。只要您的分类数据属于类
    因子
    ,大多数R模型函数都会为您创建虚拟变量。是的,我很抱歉,我指的是文字,例如说这些是运动、棒球、排球、冰球等的名称。您的意思是说,这些带有文字的列可以作为逻辑回归中的特征传递吗?是的,如果是y如果使用R中的内置
    glm
    方法进行逻辑回归,则只要数据为
    factor
    是,虚拟编码就会自动进行;如果使用R中的内置
    glm
    方法进行逻辑回归,则只要数据为
    factor
    ,虚拟编码就会自动进行