Apache spark 如何使用python运行带有分类功能的Spark logistic回归？_Apache Spark_Logistic Regression_Categorical Data

Apache spark 如何使用python运行带有分类功能的Spark logistic回归？

apache-spark

Apache spark 如何使用python运行带有分类功能的Spark logistic回归？,apache-spark,logistic-regression,categorical-data,Apache Spark,Logistic Regression,Categorical Data,我有一个包含一些分类变量的数据，我想使用Mllib运行逻辑回归，似乎模型只支持连续变量。有人知道如何处理这个问题吗？逻辑回归与其他线性模型一样，将RDD作为输入，而标签点是双精度（标签）和相关向量（双数组）不支持分类值（字符串），但可以将其转换为二进制列例如，如果一个列RAG的值为红色、琥珀色和绿色，则可以添加三个二进制列isRed、isAmber和isGreen，其中每个样本只有一个为1（真），其他为0（零）见进一步解释：

我有一个包含一些分类变量的数据，我想使用Mllib运行逻辑回归，似乎模型只支持连续变量。

有人知道如何处理这个问题吗？

逻辑回归与其他线性模型一样，将RDD作为输入，而标签点是双精度（标签）和相关向量（双数组）

不支持分类值（字符串），但可以将其转换为二进制列

例如，如果一个列RAG的值为红色、琥珀色和绿色，则可以添加三个二进制列isRed、isAmber和isGreen，其中每个样本只有一个为1（真），其他为0（零）

见进一步解释：