Apache spark 如何在考拉中计算聚合中的唯一值_Apache Spark_Pyspark_Spark Koalas

Apache spark 如何在考拉中计算聚合中的唯一值

apache-spark pyspark

Apache spark 如何在考拉中计算聚合中的唯一值,apache-spark,pyspark,spark-koalas,Apache Spark,Pyspark,Spark Koalas,对考拉来说是个新手，尝试做一些真正基本的事情。我只是尝试在聚合中计算列中的唯一值。在熊猫方面，我会做： df.groupby('columnname').agg({'column_i_want_count_of_unique_values' : pd.Series.nunique}) 但例如，ks.Series.nunique不起作用，“count”似乎也没有给出正确的答案对于一些如此简单和常见的东西，我感到非常沮丧，而且很烦人，以至于我在文档中找不到它，因为有些东西自称是将pandas移植

对考拉来说是个新手，尝试做一些真正基本的事情。我只是尝试在聚合中计算列中的唯一值。在熊猫方面，我会做：

df.groupby('columnname').agg({'column_i_want_count_of_unique_values' : pd.Series.nunique})

但例如，ks.Series.nunique不起作用，“count”似乎也没有给出正确的答案

对于一些如此简单和常见的东西，我感到非常沮丧，而且很烦人，以至于我在文档中找不到它，因为有些东西自称是将pandas移植到spark。

我认为正确的语法是：

df.groupby('columnname').agg({'column_i_want_count_of_unique_values' : 'nunique'})

来源：

您可以使用该功能

这似乎对我不起作用。。我获取：org.apache.spark.sql.AnalysisException:org.apache.hadoop.hive.ql.metadata.HiveException:MetaException（消息：无法获取函数：MetaException（消息：用户：arn:aws:sts:：022565123368:假定角色/databricks_s3_ads/i-09d08eb4c2f46725e无权在资源上执行：glue:GetUserDefined函数：arn:aws:glue:ap-southeast-2:022565123368:UserDefined函数/default/nunique）（服务：AWSGlue；状态代码：400；错误代码：AccessDeniedException；请求ID:F79320F-6c7c-4d11-a76b-850aa59f1c9f））；这可能是一个无关的错误…看起来像是一些访问被拒绝的问题，这有点奇怪，因为df.groupby（'columnname'）.agg（{'column_i_-want_-count_唯一值的计数'：'count}）做了一些事情。所以我没有真正了解我被拒绝的访问类型我得到了错误：TypeError:“GroupedData”对象不可订阅您使用的考拉的哪个版本？语法应该正确，因为它与他们的文档中的相同

df.groupby('columnname')['column_i_want_count_of_unique_values'].nunique()