如何从Pyspark dataframe列中选择一些行并将其添加到新的dataframe?
我有10个数据帧,如何从Pyspark dataframe列中选择一些行并将其添加到新的dataframe?,dataframe,pyspark,pyspark-dataframes,Dataframe,Pyspark,Pyspark Dataframes,我有10个数据帧,df1…df10有2列: df1 id | 2011_结果 df2 id | 2012_结果, ... df3 id| 2018_结果 我想选择一些2011\u result值小于阈值的ID sample_ids=df1['2011_result']<threshold].sample(10)['id'].values sample\u id=df1['2011\u result']首先,您可以使用以下内容进行过滤: import pyspark.sql.func
df1…df10
有2列:
df1
id | 2011_结果
df2
id | 2012_结果
,
...
df3
id| 2018_结果
我想选择一些2011\u result
值小于阈值的ID
sample_ids=df1['2011_result']<threshold].sample(10)['id'].values
sample\u id=df1['2011\u result']首先,您可以使用以下内容进行过滤:
import pyspark.sql.functions as F
sample_ids=df1.filter(F.col("2011_result") < threshold)
df2 = df2.join(sample_ids.select("id"), on="id", how="left_anti")