Python 在Spark 1.6数据帧上通过其他字段获取每个组的不同元素_Python_Apache Spark_Pyspark

Python 在Spark 1.6数据帧上通过其他字段获取每个组的不同元素

python apache-spark pyspark

Python 在Spark 1.6数据帧上通过其他字段获取每个组的不同元素,python,apache-spark,pyspark,Python,Apache Spark,Pyspark,我试图在Spark数据框中按日期分组，并为每个组计算一列的唯一值： test.json {"name":"Yin", "address":1111111, "date":20151122045510} {"name":"Yin", "address":1111111, "date":20151122045501} {"name":"Yln", "address":1111111, "date":20151122045500} {"name":"Yun", "address":1111112, "

我试图在Spark数据框中按日期分组，并为每个组计算一列的唯一值：

test.json
{"name":"Yin", "address":1111111, "date":20151122045510}
{"name":"Yin", "address":1111111, "date":20151122045501}
{"name":"Yln", "address":1111111, "date":20151122045500}
{"name":"Yun", "address":1111112, "date":20151122065832}
{"name":"Yan", "address":1111113, "date":20160101003221}
{"name":"Yin", "address":1111111, "date":20160703045231}
{"name":"Yin", "address":1111114, "date":20150419134543}
{"name":"Yen", "address":1111115, "date":20151123174302}

以及守则：

import pyspark.sql.funcions as func
from pyspark.sql.types import TimestampType
from datetime import datetime

df_y = sqlContext.read.json("/user/test.json")
udf_dt = func.udf(lambda x: datetime.strptime(x, '%Y%m%d%H%M%S'), TimestampType())
df = df_y.withColumn('datetime', udf_dt(df_y.date))
df_g = df_y.groupby(func.hour(df_y.date))    
df_g.count().distinct().show()

pyspark的结果如下

df_y.groupby(df_y.name).count().distinct().show()
+----+-----+
|name|count|
+----+-----+
| Yan|    1|
| Yun|    1|
| Yin|    4|
| Yen|    1|
| Yln|    1|
+----+-----+

我所期待的是关于熊猫的事情：

df = df_y.toPandas()
df.groupby('name').address.nunique()
Out[51]: 
name
Yan    1
Yen    1
Yin    2
Yln    1
Yun    1

如何通过另一个字段（如地址）获取每个组的唯一元素？

有一种方法可以使用函数

countDistinct

对每个组的不同元素进行计数：

import pyspark.sql.functions as func
from pyspark.sql.types import TimestampType
from datetime import datetime

df_y = sqlContext.read.json("/user/test.json")
udf_dt = func.udf(lambda x: datetime.strptime(x, '%Y%m%d%H%M%S'), TimestampType())
df = df_y.withColumn('datetime', udf_dt(df_y.date))
df_g = df_y.groupby(func.hour(df_y.date))    
df_y.groupby(df_y.name).agg(func.countDistinct('address')).show()

+----+--------------+
|name|count(address)|
+----+--------------+
| Yan|             1|
| Yun|             1|
| Yin|             2|
| Yen|             1|
| Yln|             1|
+----+--------------+

文档[此处]（，org.apache.spark.sql.Column…）可用。

通过字段“\u c1”对groupby进行简洁直接的回答，并从字段“\u c2”计算不同数量的值：

第三行是否应该是：df_y=df_y.withColumn（'datetime'，udf_dt（df_y.date））

import pyspark.sql.functions as F

dg = df.groupBy("_c1").agg(F.countDistinct("_c2"))