Spark数据帧Python_Python_Apache Spark

Spark数据帧Python

python apache-spark

Spark数据帧Python,python,apache-spark,Python,Apache Spark,在pandas中，我可以成功运行以下各项： def car(t) if t in df_a: return df_a[t]/df_b[t] else: return 0 但是我怎样才能用spark dataframe做同样的事情呢？非常感谢！数据是这样的 df_a a 20 b 40 c 60 df_b a 80 b 50 e 100 输入cara时，结果应为0.25。首先，您必须连接两个数据帧，然后必须按所需字母进行筛选，并选择所需的操作 d

在pandas中，我可以成功运行以下各项：

def car(t)
    if t in df_a:
       return df_a[t]/df_b[t]
    else:
       return 0

但是我怎样才能用spark dataframe做同样的事情呢？非常感谢！数据是这样的

df_a
a 20
b 40
c 60

df_b
a 80
b 50
e 100

输入cara时，结果应为0.25。首先，您必须连接两个数据帧，然后必须按所需字母进行筛选，并选择所需的操作

df_a=sc.parallelize[a，20，b，40，c，60].toDF[key，value] df_b=sc.parallelize[a，80，b，50，e，100].toDF[key，value] def carc：返回df_a.joindf_b，on=[key]。其中df_a[key]==c。选择df_a[value]/df_b[value]。aliasratio.head 卡拉行比=0.25 首先必须连接两个数据帧，然后必须按所需字母进行筛选并选择所需的操作

你想计算什么？我在使用hadoop，只是想把pandas的代码转换成sparkYes，但是这个函数做什么，你应该显示输入和输出。df_a包含id，我在运行上面的代码之前运行df_a.value_counts。你在使用Scala还是Pyspark？你想计算什么？我在使用hadoop，只是想将代码从pandas转换为sparkYes，但该函数的作用是什么，您应该显示输入和输出。df_a包含id，在运行上述代码之前，我运行df_a.value_counts。您使用的是Scala还是Pyspark？还有一个问题，输入可以是数据帧吗？我想输入一个数据帧df_c，它包含在钥匙上，然后汽车将循环通过df_c中钥匙的每一行，然后输出每个钥匙的比率。你必须先给我一个例子。然而，避免以这种强制性的方式思考，spark是懒惰的，并且大部分计算是并行完成的。还有一个问题，输入可以是数据帧吗？我想输入一个数据帧df_c，它包含在钥匙上，然后汽车将循环通过df_c中钥匙的每一行，然后输出每个钥匙的比率。你必须先给我一个例子。然而，避免以这种强制性的方式思考，spark是懒惰的，大部分计算是并行完成的