Apache spark SparkML:管道预测的记录数少于输入

Apache spark SparkML:管道预测的记录数少于输入,apache-spark,pyspark,apache-spark-ml,Apache Spark,Pyspark,Apache Spark Ml,在管道中,我如何确定哪些记录被跳过或从转换中删除 我有一条管道,如下所示: 字符串索引器 OnehotRestimator (对所有分类COL重复上述步骤) 矢量汇编程序(收集所有编码和原始数值列) 逻辑回归 然后: 有一张唱片不见了,我想知道是哪张。 谢谢您的StringIndexer的handleInvalid选项可能设置为skip 您可以将此选项更改为error,转换将在从未见过的标签上失败。从Spark 2.2开始,您还可以使用选项keep将带有未知标签的行保留在单独的存储桶中: s

在管道中,我如何确定哪些记录被跳过或从转换中删除

我有一条管道,如下所示:

  • 字符串索引器
  • OnehotRestimator
  • (对所有分类COL重复上述步骤)
  • 矢量汇编程序(收集所有编码和原始数值列)
  • 逻辑回归
然后:

有一张唱片不见了,我想知道是哪张。
谢谢

您的
StringIndexer
handleInvalid
选项可能设置为
skip

您可以将此选项更改为
error
,转换将在从未见过的标签上失败。从Spark 2.2开始,您还可以使用选项
keep
将带有未知标签的行保留在单独的存储桶中:

string_indexer = StringIndexer(inputCol="label", outputCol="indexed", handleInvalid='keep')

StringIndexer
handleInvalid
选项可能设置为
skip

您可以将此选项更改为
error
,转换将在从未见过的标签上失败。从Spark 2.2开始,您还可以使用选项
keep
将带有未知标签的行保留在单独的存储桶中:

string_indexer = StringIndexer(inputCol="label", outputCol="indexed", handleInvalid='keep')