Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/fsharp/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 如何使用python运行带有分类功能的Spark logistic回归?_Apache Spark_Logistic Regression_Categorical Data - Fatal编程技术网

Apache spark 如何使用python运行带有分类功能的Spark logistic回归?

Apache spark 如何使用python运行带有分类功能的Spark logistic回归?,apache-spark,logistic-regression,categorical-data,Apache Spark,Logistic Regression,Categorical Data,我有一个包含一些分类变量的数据,我想使用Mllib运行逻辑回归,似乎模型只支持连续变量。 有人知道如何处理这个问题吗?逻辑回归与其他线性模型一样,将RDD作为输入,而标签点是双精度(标签)和相关向量(双数组) 不支持分类值(字符串),但可以将其转换为二进制列 例如,如果一个列RAG的值为红色、琥珀色和绿色,则可以添加三个二进制列isRed、isAmber和isGreen,其中每个样本只有一个为1(真),其他为0(零) 见进一步解释:

我有一个包含一些分类变量的数据,我想使用Mllib运行逻辑回归,似乎模型只支持连续变量。
有人知道如何处理这个问题吗?

逻辑回归与其他线性模型一样,将RDD作为输入,而标签点是双精度(标签)和相关向量(双数组)

不支持分类值(字符串),但可以将其转换为二进制列

例如,如果一个列RAG的值为红色、琥珀色和绿色,则可以添加三个二进制列isRed、isAmber和isGreen,其中每个样本只有一个为1(真),其他为0(零)

见进一步解释: