Dataframe 在pyspark中划分数据帧

Dataframe 在pyspark中划分数据帧,dataframe,apache-spark,pyspark,apache-spark-sql,divide,Dataframe,Apache Spark,Pyspark,Apache Spark Sql,Divide,在接下来的问题和数据帧中,我试图转换这个 对此(我知道它看起来是一样的,但请参阅下一行代码以查看差异): 在pandas中,我使用了行代码teste_2=(value/value.groupby(level=0.sum()),在pyspark中我尝试了几种解决方案;第一个是: df_2 = (df/df.groupby(["age"]).sum()) 但是,我收到以下错误:TypeError:/:“DataFrame”和“DataFrame”的操作数类型不受支持。 第

在接下来的问题和数据帧中,我试图转换这个

对此(我知道它看起来是一样的,但请参阅下一行代码以查看差异):

在pandas中,我使用了行代码teste_2=(value/value.groupby(level=0.sum()),在pyspark中我尝试了几种解决方案;第一个是:

 df_2 = (df/df.groupby(["age"]).sum())
但是,我收到以下错误:
TypeError:/:“DataFrame”和“DataFrame”的操作数类型不受支持。

第二个是:

df_2 = (df.filter(col('Siblings'))/gr.groupby(col('Age')).sum())

但它仍然不起作用。有人能帮我吗?

希望我正确理解了这个问题。似乎您想将计数除以每个年龄组的计数之和

from pyspark.sql import functions as F, Window

df2 = df.groupBy('age', 'siblings').count().withColumn(
    'count',
    F.col('count') / F.sum('count').over(Window.partitionBy('age'))
)

df2.show()
+---+--------+-----+
|age|siblings|count|
+---+--------+-----+
| 15|       0|  1.0|
| 10|       3|  1.0|
| 14|       1|  1.0|
+---+--------+-----+

你想在这里干什么?您能显示示例数据帧和所需的输出吗?是的,对不起,将进行编辑@mck@mck编辑!我想现在更容易理解了