如何从Pyspark dataframe列中选择一些行并将其添加到新的dataframe？_Dataframe_Pyspark_Pyspark Dataframes

如何从Pyspark dataframe列中选择一些行并将其添加到新的dataframe？

dataframe pyspark

如何从Pyspark dataframe列中选择一些行并将其添加到新的dataframe？,dataframe,pyspark,pyspark-dataframes,Dataframe,Pyspark,Pyspark Dataframes,我有10个数据帧，df1…df10有2列： df1 id | 2011_结果 df2 id | 2012_结果， ... df3 id| 2018_结果我想选择一些2011\u result值小于阈值的ID sample_ids=df1['2011_result']<threshold].sample(10)['id'].values sample\u id=df1['2011\u result']首先，您可以使用以下内容进行过滤： import pyspark.sql.func

我有10个数据帧，

df1…df10

有2列：

df1

id | 2011_结果

df2

id | 2012_结果

， ...

df3

id| 2018_结果

我想选择一些

2011\u result

值小于阈值的ID

 sample_ids=df1['2011_result']<threshold].sample(10)['id'].values

sample\u id=df1['2011\u result']首先，您可以使用以下内容进行过滤：
import pyspark.sql.functions as F

sample_ids=df1.filter(F.col("2011_result") < threshold)

df2 = df2.join(sample_ids.select("id"), on="id", how="left_anti")