Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 如何删除少于3个字母的行?_Apache Spark_Pyspark_Apache Spark Sql - Fatal编程技术网

Apache spark 如何删除少于3个字母的行?

Apache spark 如何删除少于3个字母的行?,apache-spark,pyspark,apache-spark-sql,Apache Spark,Pyspark,Apache Spark Sql,我有一个包含许多行的pyspark数据帧。每行是一个文本。只有一列。我想删除或删除少于3个字母的行。例如,在下面的4行中,我想删除第二列和第四列。(pdf和a): 可以使用列的长度进行筛选: df2 = df.filter('length(col) > 3') 如果空格很重要,可以先删除它们: df2 = df.filter("length(replace(col, ' ', '')) > 3") 它不会改变df中的空格吗?因为我在所有行前面都有一个空格。@N

我有一个包含许多行的pyspark数据帧。每行是一个文本。只有一列。我想删除或删除少于3个字母的行。例如,在下面的4行中,我想删除第二列和第四列。(
pdf
a
):


可以使用列的长度进行筛选:

df2 = df.filter('length(col) > 3')
如果空格很重要,可以先删除它们:

df2 = df.filter("length(replace(col, ' ', '')) > 3")

它不会改变df中的空格吗?因为我在所有行前面都有一个空格。@Nagh不,不会的。替换仅适用于筛选器,而不适用于数据帧。
df2 = df.filter("length(replace(col, ' ', '')) > 3")