Java 尝试使用Spark IDF.fit（）时获取空指针异常_Java_Apache Spark_Pyspark_Spark Dataframe

Java 尝试使用Spark IDF.fit（）时获取空指针异常

java apache-spark pyspark

Java 尝试使用Spark IDF.fit（）时获取空指针异常,java,apache-spark,pyspark,spark-dataframe,Java,Apache Spark,Pyspark,Spark Dataframe,尝试在Spark文档中运行此操作。获取下面的错误。也可以使用示例的Java版本获得相同的错误。我得到错误的确切行是： idfModel = idf.fit(featurizedData) Py4JJavaError: An error occurred while calling o1142.fit. : org.apache.spark.SparkException: Job aborted due to stage failure: Task 7 in stage 256.0 faile

尝试在Spark文档中运行此操作。获取下面的错误。也可以使用示例的Java版本获得相同的错误。我得到错误的确切行是：

idfModel = idf.fit(featurizedData)


Py4JJavaError: An error occurred while calling o1142.fit.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 7 in stage 256.0 failed 1 times, most recent failure: Lost task 7.0 in stage 256.0 (TID 3308, localhost): java.lang.NullPointerException

我使用的数据是通过读取一个有几千条记录的Json文件获得的。在Java中，我读取的文件如下所示：

DataFrame myData = sqlContext.read().json("myJsonFile.json");

代码的其余部分与上面链接的示例完全相同。FeatureizedData是一个有效的数据框架，我打印了它的模式和第一个元素，所有内容都如预期的那样。我不知道为什么会出现空指针异常。

问题是有些列的文本字段是

nan

由于问题标记为

PySpark

，请使用

data\u nan\u imputed=data.fillna（“未知”，子集=[“text\u col1”，“text\u coln”）

如果要将多个文本列组合成一个文本列，这是一个很好的做法。否则，也可以使用

data\u nan\u drop=data.dropna（）

删除

nan

列，然后拟合此数据集。希望它能起作用

对于

scala

或

java

使用类似的

nan

填充语句。

有什么解决方法吗？