Apache spark 在spark mllib分类器中处理null/NaN值
我有一组分类列(字符串),我正在解析并将其转换为特征向量,以传递给mllib分类器(随机林) 在我的输入数据中,某些列具有空值。比如,在其中一列中,我有p值+一个空值: 我应该如何构建我的特征向量,以及分类器的分类特征信息图Apache spark 在spark mllib分类器中处理null/NaN值,apache-spark,classification,random-forest,apache-spark-mllib,Apache Spark,Classification,Random Forest,Apache Spark Mllib,我有一组分类列(字符串),我正在解析并将其转换为特征向量,以传递给mllib分类器(随机林) 在我的输入数据中,某些列具有空值。比如,在其中一列中,我有p值+一个空值: 我应该如何构建我的特征向量,以及分类器的分类特征信息图 选项1:我在CategorialFeaturesInfo中告诉p值,并在输入向量中使用Double.NaN? 附带问题:分类器是如何处理NAN的 选项> 2:我把空值看作一个值,所以我告诉(P+ 1)在分类特征信息中的值,而我把空值映射到一些加倍值。李> 谢谢你的帮
- 选项1:我在CategorialFeaturesInfo中告诉p值,并在输入向量中使用Double.NaN?
- 附带问题:分类器是如何处理NAN的李>
选项> 2:我把空值看作一个值,所以我告诉(P+ 1)在分类特征信息中的值,而我把空值映射到一些加倍值。李>
(注:我知道新的dataframe+pipeline+vectorindexer API的功能,但由于一些原因,它不适合我的需要,所以我需要自己来做)看起来选项2就是其中之一。如果null实际上是分类特性的另一个级别,只需将其映射到某个值即可。 请注意,分类功能级别应映射为0,1,2。。。。在正确使用它们之前,请参见此处: 所以空值将被映射到这些数字中的一个