Apache spark 如何在考拉中计算聚合中的唯一值
对考拉来说是个新手,尝试做一些真正基本的事情。我只是尝试在聚合中计算列中的唯一值。在熊猫方面,我会做:Apache spark 如何在考拉中计算聚合中的唯一值,apache-spark,pyspark,spark-koalas,Apache Spark,Pyspark,Spark Koalas,对考拉来说是个新手,尝试做一些真正基本的事情。我只是尝试在聚合中计算列中的唯一值。在熊猫方面,我会做: df.groupby('columnname').agg({'column_i_want_count_of_unique_values' : pd.Series.nunique}) 但例如,ks.Series.nunique不起作用,“count”似乎也没有给出正确的答案 对于一些如此简单和常见的东西,我感到非常沮丧,而且很烦人,以至于我在文档中找不到它,因为有些东西自称是将pandas移植
df.groupby('columnname').agg({'column_i_want_count_of_unique_values' : pd.Series.nunique})
但例如,ks.Series.nunique不起作用,“count”似乎也没有给出正确的答案
对于一些如此简单和常见的东西,我感到非常沮丧,而且很烦人,以至于我在文档中找不到它,因为有些东西自称是将pandas移植到spark。我认为正确的语法是:
df.groupby('columnname').agg({'column_i_want_count_of_unique_values' : 'nunique'})
来源:您可以使用该功能
这似乎对我不起作用。。我获取:org.apache.spark.sql.AnalysisException:org.apache.hadoop.hive.ql.metadata.HiveException:MetaException(消息:无法获取函数:MetaException(消息:用户:arn:aws:sts::022565123368:假定角色/databricks_s3_ads/i-09d08eb4c2f46725e无权在资源上执行:glue:GetUserDefined函数:arn:aws:glue:ap-southeast-2:022565123368:UserDefined函数/default/nunique)(服务:AWSGlue;状态代码:400;错误代码:AccessDeniedException;请求ID:F79320F-6c7c-4d11-a76b-850aa59f1c9f));这可能是一个无关的错误…看起来像是一些访问被拒绝的问题,这有点奇怪,因为df.groupby('columnname').agg({'column_i_-want_-count_唯一值的计数':'count})做了一些事情。所以我没有真正了解我被拒绝的访问类型我得到了错误:TypeError:“GroupedData”对象不可订阅您使用的考拉的哪个版本?语法应该正确,因为它与他们的文档中的相同
df.groupby('columnname')['column_i_want_count_of_unique_values'].nunique()