Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark pyspark管道中的错误_Apache Spark_Pyspark_Apache Spark Ml - Fatal编程技术网

Apache spark pyspark管道中的错误

Apache spark pyspark管道中的错误,apache-spark,pyspark,apache-spark-ml,Apache Spark,Pyspark,Apache Spark Ml,我正在使用PySpark管道生成一些特性 pipeline=pipeline(阶段=[token_q1,token_q2,remover_q1,remover_q2, transformer_textlength_q1、transformer_textlength_q2、transformer_totalwords、, transformer\u commonwords,transformer\u difftwolength, 变压器模糊度,变压器模糊度部分符号设定比率, 变压器模糊部分标记排序

我正在使用PySpark
管道
生成一些特性

pipeline=pipeline(阶段=[token_q1,token_q2,remover_q1,remover_q2,
transformer_textlength_q1、transformer_textlength_q2、transformer_totalwords、,
transformer\u commonwords,transformer\u difftwolength,
变压器模糊度,变压器模糊度部分符号设定比率,
变压器模糊部分标记排序,变压器模糊标记设置比率,
变压器模糊符号分类,变压器模糊比例,变压器模糊纠纷,
Q1W2模型,Q2W2模型,
曼哈顿变形金刚,布雷库蒂斯变形金刚,堪培拉变形金刚,
变换余弦,变换欧几里得,
变压器jaccard,变压器minkowski,变压器峰度q1,
变压器峰度q2,变压器偏斜q1,变压器偏斜q2,
汇编程序,lr])
lr
是逻辑回归,这是上述管道中的最后一步。当我不使用它时,我使用
pipeline.transform(train)
获得正确的转换。错误是


pyspark.sql.utils.IllegalArgumentException:u'要求失败:检查转换的数据时应使用init值。我从数据中得到一些NaN。我们如何处理管道中的NaN,你不能。您必须在培训之前删除或替换。@user9613318但NaN是作为管道的一部分引入的。从名称来看,没有一个转换器是标准的ML代码。这意味着NAN是由您自己的代码(或者可能是某些第三方代码)引入的,我们没有访问权限。但答案仍然是一样的——在将数据传递给
lr
@user9613318之前,您必须先修复它。是的,您是对的。我能在我的变形金刚中处理NaN。