在Pyspark中使用LabeledPoint函数是否需要将分类属性转换为数字属性?
我是Pyspark的新手。我有一个包含分类特征的数据集,我想使用pyspark的回归模型来预测连续值。我被困在使用MLlib模型所需的数据预处理中 是的,这是必要的。您不仅要转换为数值,还要进行编码,使其对线性模型有用。这两个步骤都是在在Pyspark中使用LabeledPoint函数是否需要将分类属性转换为数字属性?,pyspark,categorical-data,Pyspark,Categorical Data,我是Pyspark的新手。我有一个包含分类特征的数据集,我想使用pyspark的回归模型来预测连续值。我被困在使用MLlib模型所需的数据预处理中 是的,这是必要的。您不仅要转换为数值,还要进行编码,使其对线性模型有用。这两个步骤都是在pyspark.ml(而不是mllib)中通过以下方式实现的: pyspark.ml.feature.StringIndexer-索引 pyspark.ml.feature.OneHotEncoder-编码
pyspark.ml
(而不是mllib
)中通过以下方式实现的:
-索引pyspark.ml.feature.StringIndexer
-编码pyspark.ml.feature.OneHotEncoder