Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark Spark多标签分类_Apache Spark_Scikit Learn_Pyspark - Fatal编程技术网

Apache spark Spark多标签分类

Apache spark Spark多标签分类,apache-spark,scikit-learn,pyspark,Apache Spark,Scikit Learn,Pyspark,我希望使用Spark实现一个多输出的多标签分类算法,但我很惊讶Spark机器学习库中没有任何模型可以做到这一点 我怎样才能用Spark做到这一点 否则,Scikit Learn Logistic回归支持输入/输出中的多标签分类,但不支持用于训练的大量数据 要查看scikit学习中的代码,请单击以下链接: Spark中还有支持基于api的多标签分类的逻辑回归。另见 使用合适的spark配置,您在scikitlearn上遇到的大量训练数据问题将随着spark的出现而消失 另一种方法是对问题中的每个标

我希望使用Spark实现一个多输出的多标签分类算法,但我很惊讶Spark机器学习库中没有任何模型可以做到这一点

我怎样才能用Spark做到这一点

否则,Scikit Learn Logistic回归支持输入/输出中的多标签分类,但不支持用于训练的大量数据

要查看scikit学习中的代码,请单击以下链接:
Spark中还有支持基于api的多标签分类的逻辑回归。另见

使用合适的spark配置,您在scikitlearn上遇到的大量训练数据问题将随着spark的出现而消失

另一种方法是对问题中的每个标签使用二进制分类器,并通过对该标签运行相关的无关预测来获得多标签。您可以使用任何二进制分类器轻松地在Spark中实现这一点


间接地,也可能有帮助的是,对最近邻使用多标签分类,这也是一个很好的方法。例如,一些最近的邻居会触发扩展,如或

@zero323多类不同于多标签分类,非常感谢。没有你的回答,没有人会知道Spark有多标签逻辑回归支持。在Spark docs afaict中没有提到它,当我搜索Spark multilabel时,API页面甚至没有出现。我不知道为什么这没有被标记为正确答案。非常有用的答案:实际上,关于标签的数量(超过训练集中存在的子集的数量)仍然存在一个大问题,因为字符串索引器只是创建更多的标签,然后训练模型,因为它是单个类。示例:类$A、B、C$,所发生的只是stringindexer创建了新的类$AB、BC、AC、ABC$,所以模型又变成了单标签…更新:我实际上浏览了Spark的代码,似乎LogisticRegressionWithGD只支持多类而不支持多标签。这是基于这里的代码,在这里,我看到softmax代替了多标签逻辑回归的标准sigmoid。也许文档意味着多类而不是多标签。