Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark PySpark-如何从此数据帧筛选行_Apache Spark_Pyspark - Fatal编程技术网

Apache spark PySpark-如何从此数据帧筛选行

Apache spark PySpark-如何从此数据帧筛选行,apache-spark,pyspark,Apache Spark,Pyspark,我正在尝试从文件中读取第一行,然后从数据帧中过滤该行 我正在使用take(1)阅读第一行。然后,我想从数据帧中过滤它(它可能在数据集中出现多次) 但是我得到了以下错误TypeError:条件应该是string或Column 我想从Nicky那里得到答案 数据如下所示(但需要对多个列执行相同操作): 我希望结果如下: 1 2 3 4 5 在数据帧上获取结果列表(行)我们需要使用[0][0]和 在filter子句中,使用列名并过滤与标题不相等的行 header = df1.take(1)[0][0

我正在尝试从文件中读取第一行,然后从数据帧中过滤该行

我正在使用
take(1)
阅读第一行。然后,我想从数据帧中过滤它(它可能在数据集中出现多次)

但是我得到了以下错误
TypeError:条件应该是string或Column

我想从Nicky那里得到答案

数据如下所示(但需要对多个列执行相同操作):

我希望结果如下:

1
2
3
4
5

数据帧上获取
结果
列表(行)
我们需要使用[0][0]和 在
filter
子句中,使用列名并过滤
标题不相等的行

header = df1.take(1)[0][0]
#filter out rows that are not equal to header
final_df = df1.filter(col("<col_name>") != header)
final_df.show()
header=df1.take(1)[0][0]
#筛选出不等于标题的行
final_df=df1.过滤器(列(“”)=标题)
最终设计图显示()
1
2
3
4
5
header = df1.take(1)[0][0]
#filter out rows that are not equal to header
final_df = df1.filter(col("<col_name>") != header)
final_df.show()