Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 在spark mllib分类器中处理null/NaN值_Apache Spark_Classification_Random Forest_Apache Spark Mllib - Fatal编程技术网

Apache spark 在spark mllib分类器中处理null/NaN值

Apache spark 在spark mllib分类器中处理null/NaN值,apache-spark,classification,random-forest,apache-spark-mllib,Apache Spark,Classification,Random Forest,Apache Spark Mllib,我有一组分类列(字符串),我正在解析并将其转换为特征向量,以传递给mllib分类器(随机林) 在我的输入数据中,某些列具有空值。比如,在其中一列中,我有p值+一个空值: 我应该如何构建我的特征向量,以及分类器的分类特征信息图 选项1:我在CategorialFeaturesInfo中告诉p值,并在输入向量中使用Double.NaN? 附带问题:分类器是如何处理NAN的 选项> 2:我把空值看作一个值,所以我告诉(P+ 1)在分类特征信息中的值,而我把空值映射到一些加倍值。李> 谢谢你的帮

我有一组分类列(字符串),我正在解析并将其转换为特征向量,以传递给mllib分类器(随机林)

在我的输入数据中,某些列具有空值。比如,在其中一列中,我有p值+一个空值: 我应该如何构建我的特征向量,以及分类器的分类特征信息图

  • 选项1:我在CategorialFeaturesInfo中告诉p值,并在输入向量中使用Double.NaN?
    • 附带问题:分类器是如何处理NAN的
  • 选项> 2:我把空值看作一个值,所以我告诉(P+ 1)在分类特征信息中的值,而我把空值映射到一些加倍值。李>
谢谢你的帮助


(注:我知道新的dataframe+pipeline+vectorindexer API的功能,但由于一些原因,它不适合我的需要,所以我需要自己来做)

看起来选项2就是其中之一。如果null实际上是分类特性的另一个级别,只需将其映射到某个值即可。 请注意,分类功能级别应映射为0,1,2。。。。在正确使用它们之前,请参见此处:

所以空值将被映射到这些数字中的一个