Apache spark SparkML：管道预测的记录数少于输入_Apache Spark_Pyspark_Apache Spark Ml

Apache spark SparkML：管道预测的记录数少于输入

apache-spark pyspark

Apache spark SparkML：管道预测的记录数少于输入,apache-spark,pyspark,apache-spark-ml,Apache Spark,Pyspark,Apache Spark Ml,在管道中，我如何确定哪些记录被跳过或从转换中删除我有一条管道，如下所示：字符串索引器 OnehotRestimator （对所有分类COL重复上述步骤）矢量汇编程序（收集所有编码和原始数值列）逻辑回归然后：有一张唱片不见了，我想知道是哪张。谢谢您的StringIndexer的handleInvalid选项可能设置为skip 您可以将此选项更改为error，转换将在从未见过的标签上失败。从Spark 2.2开始，您还可以使用选项keep将带有未知标签的行保留在单独的存储桶中： s

在管道中，我如何确定哪些记录被跳过或从转换中删除

我有一条管道，如下所示：

字符串索引器
OnehotRestimator
（对所有分类COL重复上述步骤）
矢量汇编程序（收集所有编码和原始数值列）
逻辑回归

然后：

有一张唱片不见了，我想知道是哪张。

谢谢

您的

StringIndexer

的

handleInvalid

选项可能设置为

skip

您可以将此选项更改为

error

，转换将在从未见过的标签上失败。从Spark 2.2开始，您还可以使用选项

keep

将带有未知标签的行保留在单独的存储桶中：

string_indexer = StringIndexer(inputCol="label", outputCol="indexed", handleInvalid='keep')

StringIndexer

的

handleInvalid

选项可能设置为

skip

您可以将此选项更改为

error

，转换将在从未见过的标签上失败。从Spark 2.2开始，您还可以使用选项

keep

将带有未知标签的行保留在单独的存储桶中：

string_indexer = StringIndexer(inputCol="label", outputCol="indexed", handleInvalid='keep')