Apache spark 如何使用python运行带有分类功能的Spark logistic回归?
我有一个包含一些分类变量的数据,我想使用Mllib运行逻辑回归,似乎模型只支持连续变量。Apache spark 如何使用python运行带有分类功能的Spark logistic回归?,apache-spark,logistic-regression,categorical-data,Apache Spark,Logistic Regression,Categorical Data,我有一个包含一些分类变量的数据,我想使用Mllib运行逻辑回归,似乎模型只支持连续变量。 有人知道如何处理这个问题吗?逻辑回归与其他线性模型一样,将RDD作为输入,而标签点是双精度(标签)和相关向量(双数组) 不支持分类值(字符串),但可以将其转换为二进制列 例如,如果一个列RAG的值为红色、琥珀色和绿色,则可以添加三个二进制列isRed、isAmber和isGreen,其中每个样本只有一个为1(真),其他为0(零) 见进一步解释:
有人知道如何处理这个问题吗?逻辑回归与其他线性模型一样,将RDD作为输入,而标签点是双精度(标签)和相关向量(双数组) 不支持分类值(字符串),但可以将其转换为二进制列 例如,如果一个列RAG的值为红色、琥珀色和绿色,则可以添加三个二进制列isRed、isAmber和isGreen,其中每个样本只有一个为1(真),其他为0(零) 见进一步解释: