如何从Pyspark dataframe列中选择一些行并将其添加到新的dataframe?

如何从Pyspark dataframe列中选择一些行并将其添加到新的dataframe?,dataframe,pyspark,pyspark-dataframes,Dataframe,Pyspark,Pyspark Dataframes,我有10个数据帧,df1…df10有2列: df1 id | 2011_结果 df2 id | 2012_结果, ... df3 id| 2018_结果 我想选择一些2011\u result值小于阈值的ID sample_ids=df1['2011_result']<threshold].sample(10)['id'].values sample\u id=df1['2011\u result']首先,您可以使用以下内容进行过滤: import pyspark.sql.func

我有10个数据帧,
df1…df10
有2列:

df1
id | 2011_结果

df2
id | 2012_结果
, ...

df3
id| 2018_结果

我想选择一些
2011\u result
值小于阈值的ID

 sample_ids=df1['2011_result']<threshold].sample(10)['id'].values 

sample\u id=df1['2011\u result']首先,您可以使用以下内容进行过滤:

import pyspark.sql.functions as F

sample_ids=df1.filter(F.col("2011_result") < threshold)
df2 = df2.join(sample_ids.select("id"), on="id", how="left_anti")