Python 不带聚合或计数的Pyspark groupBy数据帧_Python_Pyspark_Pyspark Dataframes

Python 不带聚合或计数的Pyspark groupBy数据帧

python pyspark

Python 不带聚合或计数的Pyspark groupBy数据帧,python,pyspark,pyspark-dataframes,Python,Pyspark,Pyspark Dataframes,它能否在不进行聚合或计数的情况下迭代Pyspark groupBy数据帧例如，熊猫中的代码： for i, d in df2: mycode .... ^^ if using pandas ^^ Is there a difference in how to iterate groupby in Pyspark or have to use aggregation and count? 在执行GroupBy时，我们最终得到一个RelationalGroupedDataset，这

它能否在不进行聚合或计数的情况下迭代Pyspark groupBy数据帧

例如，熊猫中的代码：

for i, d in df2:
      mycode ....

^^ if using pandas ^^
Is there a difference in how to iterate groupby in Pyspark or have to use aggregation and count?

在执行GroupBy时，我们最终得到一个RelationalGroupedDataset，这是一个数据帧的花哨名称，该数据帧指定了一个分组，但需要用户指定一个聚合，然后才能进一步查询

当您尝试在分组的数据帧上执行任何函数时，它会抛出一个错误

AttributeError: 'GroupedData' object has no attribute 'show'

您最多可以使用.first、.last从groupBy中获取相应的值，但不是以您可以在pandas中获取的方式

例：

由于它们是pandas和spark中处理数据方式的基本区别，因此并非所有功能都可以以相同的方式使用

他们提供了一些解决方案，以满足您的需求：

对于钻石数据帧：

+---+-----+---------+-----+-------+-----+-----+-----+----+----+----+
|_c0|carat|      cut|color|clarity|depth|table|price|   x|   y|   z|
+---+-----+---------+-----+-------+-----+-----+-----+----+----+----+
|  1| 0.23|    Ideal|    E|    SI2| 61.5| 55.0|  326|3.95|3.98|2.43|
|  2| 0.21|  Premium|    E|    SI1| 59.8| 61.0|  326|3.89|3.84|2.31|
|  3| 0.23|     Good|    E|    VS1| 56.9| 65.0|  327|4.05|4.07|2.31|
|  4| 0.29|  Premium|    I|    VS2| 62.4| 58.0|  334| 4.2|4.23|2.63|
|  5| 0.31|     Good|    J|    SI2| 63.3| 58.0|  335|4.34|4.35|2.75|
+---+-----+---------+-----+-------+-----+-----+-----+----+----+----+

您可以使用：

l=[x.cut for x in diamonds.select("cut").distinct().rdd.collect()]
def groups(df,i):
  import pyspark.sql.functions as f
  return df.filter(f.col("cut")==i)

#for multi grouping
def groups_multi(df,i):
  import pyspark.sql.functions as f
  return df.filter((f.col("cut")==i) & (f.col("color")=='E'))# use | for or.

for i in l:
  groups(diamonds,i).show(2)

输出：

+---+-----+-------+-----+-------+-----+-----+-----+----+----+----+
|_c0|carat|    cut|color|clarity|depth|table|price|   x|   y|   z|
+---+-----+-------+-----+-------+-----+-----+-----+----+----+----+
|  2| 0.21|Premium|    E|    SI1| 59.8| 61.0|  326|3.89|3.84|2.31|
|  4| 0.29|Premium|    I|    VS2| 62.4| 58.0|  334| 4.2|4.23|2.63|
+---+-----+-------+-----+-------+-----+-----+-----+----+----+----+
only showing top 2 rows

+---+-----+-----+-----+-------+-----+-----+-----+----+----+----+
|_c0|carat|  cut|color|clarity|depth|table|price|   x|   y|   z|
+---+-----+-----+-----+-------+-----+-----+-----+----+----+----+
|  1| 0.23|Ideal|    E|    SI2| 61.5| 55.0|  326|3.95|3.98|2.43|
| 12| 0.23|Ideal|    J|    VS1| 62.8| 56.0|  340|3.93| 3.9|2.46|
+---+-----+-----+-----+-------+-----+-----+-----+----+----+----+

...

在函数组中，您可以决定数据的分组类型。这是一个简单的筛选条件，但它将分别为您提供所有组。

您希望用它实现什么？是否要消除重复数据？像你描述的那样重复分组数据是没有意义的……在

中的l代表在l:

中的i是什么？非常感谢你的回答helpful@Andy_101，我有一个类似的问题，并试图按照你的步骤。如果你能再看一眼，我会很感激的。谢谢如何为多个组聚合自定义此代码段？我已经添加了这些更改

+---+-----+-------+-----+-------+-----+-----+-----+----+----+----+
|_c0|carat|    cut|color|clarity|depth|table|price|   x|   y|   z|
+---+-----+-------+-----+-------+-----+-----+-----+----+----+----+
|  2| 0.21|Premium|    E|    SI1| 59.8| 61.0|  326|3.89|3.84|2.31|
|  4| 0.29|Premium|    I|    VS2| 62.4| 58.0|  334| 4.2|4.23|2.63|
+---+-----+-------+-----+-------+-----+-----+-----+----+----+----+
only showing top 2 rows

+---+-----+-----+-----+-------+-----+-----+-----+----+----+----+
|_c0|carat|  cut|color|clarity|depth|table|price|   x|   y|   z|
+---+-----+-----+-----+-------+-----+-----+-----+----+----+----+
|  1| 0.23|Ideal|    E|    SI2| 61.5| 55.0|  326|3.95|3.98|2.43|
| 12| 0.23|Ideal|    J|    VS1| 62.8| 56.0|  340|3.93| 3.9|2.46|
+---+-----+-----+-----+-------+-----+-----+-----+----+----+----+

...