Apache spark 在spark mllib分类器中处理null/NaN值_Apache Spark_Classification_Random Forest_Apache Spark Mllib

Apache spark 在spark mllib分类器中处理null/NaN值

apache-spark

Apache spark 在spark mllib分类器中处理null/NaN值,apache-spark,classification,random-forest,apache-spark-mllib,Apache Spark,Classification,Random Forest,Apache Spark Mllib,我有一组分类列（字符串），我正在解析并将其转换为特征向量，以传递给mllib分类器（随机林）在我的输入数据中，某些列具有空值。比如，在其中一列中，我有p值+一个空值：我应该如何构建我的特征向量，以及分类器的分类特征信息图选项1：我在CategorialFeaturesInfo中告诉p值，并在输入向量中使用Double.NaN？附带问题：分类器是如何处理NAN的选项> 2：我把空值看作一个值，所以我告诉（P+ 1）在分类特征信息中的值，而我把空值映射到一些加倍值。李> 谢谢你的帮

我有一组分类列（字符串），我正在解析并将其转换为特征向量，以传递给mllib分类器（随机林）

在我的输入数据中，某些列具有空值。比如，在其中一列中，我有p值+一个空值：我应该如何构建我的特征向量，以及分类器的分类特征信息图

选项1：我在CategorialFeaturesInfo中告诉p值，并在输入向量中使用Double.NaN？
- 附带问题：分类器是如何处理NAN的

谢谢你的帮助

（注：我知道新的dataframe+pipeline+vectorindexer API的功能，但由于一些原因，它不适合我的需要，所以我需要自己来做）

看起来选项2就是其中之一。如果null实际上是分类特性的另一个级别，只需将其映射到某个值即可。请注意，分类功能级别应映射为0,1,2。。。。在正确使用它们之前，请参见此处：

所以空值将被映射到这些数字中的一个