在Pyspark中使用LabeledPoint函数是否需要将分类属性转换为数字属性?

在Pyspark中使用LabeledPoint函数是否需要将分类属性转换为数字属性?,pyspark,categorical-data,Pyspark,Categorical Data,我是Pyspark的新手。我有一个包含分类特征的数据集,我想使用pyspark的回归模型来预测连续值。我被困在使用MLlib模型所需的数据预处理中 是的,这是必要的。您不仅要转换为数值,还要进行编码,使其对线性模型有用。这两个步骤都是在pyspark.ml(而不是mllib)中通过以下方式实现的: pyspark.ml.feature.StringIndexer-索引 pyspark.ml.feature.OneHotEncoder-编码

我是Pyspark的新手。我有一个包含分类特征的数据集,我想使用pyspark的回归模型来预测连续值。我被困在使用MLlib模型所需的数据预处理中

是的,这是必要的。您不仅要转换为数值,还要进行编码,使其对线性模型有用。这两个步骤都是在
pyspark.ml
(而不是
mllib
)中通过以下方式实现的:

  • pyspark.ml.feature.StringIndexer
    -索引
  • pyspark.ml.feature.OneHotEncoder
    -编码