Spark数据帧Python
在pandas中,我可以成功运行以下各项:Spark数据帧Python,python,apache-spark,Python,Apache Spark,在pandas中,我可以成功运行以下各项: def car(t) if t in df_a: return df_a[t]/df_b[t] else: return 0 但是我怎样才能用spark dataframe做同样的事情呢?非常感谢! 数据是这样的 df_a a 20 b 40 c 60 df_b a 80 b 50 e 100 输入cara时,结果应为0.25。首先,您必须连接两个数据帧,然后必须按所需字母进行筛选,并选择所需的操作 d
def car(t)
if t in df_a:
return df_a[t]/df_b[t]
else:
return 0
但是我怎样才能用spark dataframe做同样的事情呢?非常感谢!
数据是这样的
df_a
a 20
b 40
c 60
df_b
a 80
b 50
e 100
输入cara时,结果应为0.25。首先,您必须连接两个数据帧,然后必须按所需字母进行筛选,并选择所需的操作
df_a=sc.parallelize[a,20,b,40,c,60].toDF[key,value]
df_b=sc.parallelize[a,80,b,50,e,100].toDF[key,value]
def carc:
返回df_a.joindf_b,on=[key]。其中df_a[key]==c。选择df_a[value]/df_b[value]。aliasratio.head
卡拉
行比=0.25
首先必须连接两个数据帧,然后必须按所需字母进行筛选并选择所需的操作
df_a=sc.parallelize[a,20,b,40,c,60].toDF[key,value]
df_b=sc.parallelize[a,80,b,50,e,100].toDF[key,value]
def carc:
返回df_a.joindf_b,on=[key]。其中df_a[key]==c。选择df_a[value]/df_b[value]。aliasratio.head
卡拉
行比=0.25
你想计算什么?我在使用hadoop,只是想把pandas的代码转换成sparkYes,但是这个函数做什么,你应该显示输入和输出。df_a包含id,我在运行上面的代码之前运行df_a.value_counts。你在使用Scala还是Pyspark?你想计算什么?我在使用hadoop,只是想将代码从pandas转换为sparkYes,但该函数的作用是什么,您应该显示输入和输出。df_a包含id,在运行上述代码之前,我运行df_a.value_counts。您使用的是Scala还是Pyspark?还有一个问题,输入可以是数据帧吗?我想输入一个数据帧df_c,它包含在钥匙上,然后汽车将循环通过df_c中钥匙的每一行,然后输出每个钥匙的比率。你必须先给我一个例子。然而,避免以这种强制性的方式思考,spark是懒惰的,并且大部分计算是并行完成的。还有一个问题,输入可以是数据帧吗?我想输入一个数据帧df_c,它包含在钥匙上,然后汽车将循环通过df_c中钥匙的每一行,然后输出每个钥匙的比率。你必须先给我一个例子。然而,避免以这种强制性的方式思考,spark是懒惰的,大部分计算是并行完成的