Apache spark PySpark-如何从此数据帧筛选行
我正在尝试从文件中读取第一行,然后从数据帧中过滤该行 我正在使用Apache spark PySpark-如何从此数据帧筛选行,apache-spark,pyspark,Apache Spark,Pyspark,我正在尝试从文件中读取第一行,然后从数据帧中过滤该行 我正在使用take(1)阅读第一行。然后,我想从数据帧中过滤它(它可能在数据集中出现多次) 但是我得到了以下错误TypeError:条件应该是string或Column 我想从Nicky那里得到答案 数据如下所示(但需要对多个列执行相同操作): 我希望结果如下: 1 2 3 4 5 在数据帧上获取结果列表(行)我们需要使用[0][0]和 在filter子句中,使用列名并过滤与标题不相等的行 header = df1.take(1)[0][0
take(1)
阅读第一行。然后,我想从数据帧中过滤它(它可能在数据集中出现多次)
但是我得到了以下错误TypeError:条件应该是string或Column
我想从Nicky那里得到答案
数据如下所示(但需要对多个列执行相同操作):
我希望结果如下:
1
2
3
4
5
在数据帧上获取
结果列表(行)
我们需要使用[0][0]和
在filter
子句中,使用列名并过滤与标题不相等的行
header = df1.take(1)[0][0]
#filter out rows that are not equal to header
final_df = df1.filter(col("<col_name>") != header)
final_df.show()
header=df1.take(1)[0][0]
#筛选出不等于标题的行
final_df=df1.过滤器(列(“”)=标题)
最终设计图显示()
1
2
3
4
5
header = df1.take(1)[0][0]
#filter out rows that are not equal to header
final_df = df1.filter(col("<col_name>") != header)
final_df.show()