Apache spark 如何删除少于3个字母的行?
我有一个包含许多行的pyspark数据帧。每行是一个文本。只有一列。我想删除或删除少于3个字母的行。例如,在下面的4行中,我想删除第二列和第四列。(Apache spark 如何删除少于3个字母的行?,apache-spark,pyspark,apache-spark-sql,Apache Spark,Pyspark,Apache Spark Sql,我有一个包含许多行的pyspark数据帧。每行是一个文本。只有一列。我想删除或删除少于3个字母的行。例如,在下面的4行中,我想删除第二列和第四列。(pdf和a): 可以使用列的长度进行筛选: df2 = df.filter('length(col) > 3') 如果空格很重要,可以先删除它们: df2 = df.filter("length(replace(col, ' ', '')) > 3") 它不会改变df中的空格吗?因为我在所有行前面都有一个空格。@N
pdf
和a
):
可以使用列的长度进行筛选:
df2 = df.filter('length(col) > 3')
如果空格很重要,可以先删除它们:
df2 = df.filter("length(replace(col, ' ', '')) > 3")
它不会改变df中的空格吗?因为我在所有行前面都有一个空格。@Nagh不,不会的。替换仅适用于筛选器,而不适用于数据帧。
df2 = df.filter("length(replace(col, ' ', '')) > 3")