Apache spark Spark sql:如何计算双值

Apache spark Spark sql:如何计算双值,apache-spark,Apache Spark,我有一个1亿行的表格,我想知道在一个CTAC列上有多少个唯一的值。 我试过: SELECT COUNT(*) FROM ( SELECT CTAC FROM my_table GROUP BY CTAC HAVING COUNT(*) > 1) 但这给了我一个错误: sql.AnalysisException : cannot recognize input near '<EOF>' in subquer

我有一个1亿行的表格,我想知道在一个CTAC列上有多少个唯一的值。 我试过:

SELECT COUNT(*) 
FROM ( SELECT    CTAC 
       FROM      my_table
       GROUP BY  CTAC 
       HAVING    COUNT(*) > 1)
但这给了我一个错误:

sql.AnalysisException : cannot recognize input near '<EOF>' in subquery source
sql.AnalysisException:无法识别子查询源中“”附近的输入
我们可以在spark中进行子查询吗?如果是,怎么做

我应该尝试解决哪个问题

根据需要尝试不同的方法

println(dataFrame.select("CTAC").distinct.count)