Dataframe 删除pyspark数据帧中的空行

Dataframe 删除pyspark数据帧中的空行,dataframe,null,pyspark,Dataframe,Null,Pyspark,当我将一个相当大的数据集(即维基百科的档案)加载到spark数据框中时,我收到以下错误: at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624) ... 1 more Caused by: java.

当我将一个相当大的数据集(即维基百科的档案)加载到spark数据框中时,我收到以下错误:

    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
    ... 1 more
Caused by: java.lang.NullPointerException
    at org.apache.spark.ml.feature.Tokenizer$$anonfun$createTransformFunc$1.apply(Tokenizer.scala:39)
    at org.apache.spark.ml.feature.Tokenizer$$anonfun$createTransformFunc$1.apply(Tokenizer.scala:39)
在pyspark数据帧中删除空值的最佳方法是什么?

您可以使用na.drop删除包括空值在内的所有行:

df.na.drop()

此函数用于从pyspark df=df.dropnahow='all'中的数据帧中删除空行