Warning: file_get_contents(/data/phpspider/zhask/data//catemap/6/apache/9.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 如何在考拉中计算聚合中的唯一值_Apache Spark_Pyspark_Spark Koalas - Fatal编程技术网

Apache spark 如何在考拉中计算聚合中的唯一值

Apache spark 如何在考拉中计算聚合中的唯一值,apache-spark,pyspark,spark-koalas,Apache Spark,Pyspark,Spark Koalas,对考拉来说是个新手,尝试做一些真正基本的事情。我只是尝试在聚合中计算列中的唯一值。在熊猫方面,我会做: df.groupby('columnname').agg({'column_i_want_count_of_unique_values' : pd.Series.nunique}) 但例如,ks.Series.nunique不起作用,“count”似乎也没有给出正确的答案 对于一些如此简单和常见的东西,我感到非常沮丧,而且很烦人,以至于我在文档中找不到它,因为有些东西自称是将pandas移植

对考拉来说是个新手,尝试做一些真正基本的事情。我只是尝试在聚合中计算列中的唯一值。在熊猫方面,我会做:

df.groupby('columnname').agg({'column_i_want_count_of_unique_values' : pd.Series.nunique})
但例如,ks.Series.nunique不起作用,“count”似乎也没有给出正确的答案


对于一些如此简单和常见的东西,我感到非常沮丧,而且很烦人,以至于我在文档中找不到它,因为有些东西自称是将pandas移植到spark。

我认为正确的语法是:

df.groupby('columnname').agg({'column_i_want_count_of_unique_values' : 'nunique'})
来源:

您可以使用该功能


这似乎对我不起作用。。我获取:org.apache.spark.sql.AnalysisException:org.apache.hadoop.hive.ql.metadata.HiveException:MetaException(消息:无法获取函数:MetaException(消息:用户:arn:aws:sts::022565123368:假定角色/databricks_s3_ads/i-09d08eb4c2f46725e无权在资源上执行:glue:GetUserDefined函数:arn:aws:glue:ap-southeast-2:022565123368:UserDefined函数/default/nunique)(服务:AWSGlue;状态代码:400;错误代码:AccessDeniedException;请求ID:F79320F-6c7c-4d11-a76b-850aa59f1c9f));这可能是一个无关的错误…看起来像是一些访问被拒绝的问题,这有点奇怪,因为df.groupby('columnname').agg({'column_i_-want_-count_唯一值的计数':'count})做了一些事情。所以我没有真正了解我被拒绝的访问类型我得到了错误:TypeError:“GroupedData”对象不可订阅您使用的考拉的哪个版本?语法应该正确,因为它与他们的文档中的相同
df.groupby('columnname')['column_i_want_count_of_unique_values'].nunique()