Python 如何从pyspark数据帧中计算发生在多个分类列中的唯一数据问题是：_Python_Sql_Pyspark_Group By

Python 如何从pyspark数据帧中计算发生在多个分类列中的唯一数据问题是：

python sql pyspark

Python 如何从pyspark数据帧中计算发生在多个分类列中的唯一数据问题是：,python,sql,pyspark,group-by,Python,Sql,Pyspark,Group By,在基于ML的场景中，我试图查看推理文件中多列数据的出现情况，而不是提供给我用于培训的文件。我只需要为分类变量找到它，因为数字属性是按比例缩放的期望：我已经在标准SQL查询中成功地完成了以下工作，但我希望将其转移到PySpark中培训文件如下所示： A. B C 等级 10 0.2 RDK AAA 10 0.2 RDK AAA 10 0.2 RDK AAA 10 1.3 美国西南大学 ACA 10 1.3 美国西南大学 ACA 10 1.3 美国西南大学 ACA 8. 0.2 RDK BBV

在基于ML的场景中，我试图查看推理文件中多列数据的出现情况，而不是提供给我用于培训的文件。我只需要为分类变量找到它，因为数字属性是按比例缩放的

期望：我已经在标准SQL查询中成功地完成了以下工作，但我希望将其转移到PySpark中

培训文件如下所示：

A. B C 等级 10 0.2 RDK AAA 10 0.2 RDK AAA 10 0.2 RDK AAA 10 1.3 美国西南大学 ACA 10 1.3 美国西南大学 ACA 10 1.3 美国西南大学 ACA 8. 0.2 RDK BBV 8. 0.1 RDJ BBR 10 0.2 RDK AAA 10 5.1 RDK AAA 8. 0.1 RDJ BBR 8. 0.1 RDJ BBR 10 5.1 RDK AAA 10 5.1 RDK AAA 8. 0.1 RDJ BBR 8. 0.1 RDJ BBR

编译器应该拒绝您的查询，因为

和

class

在

SELECT

中，而不是

组中，因为我试图将实际数据和查询最小化以便于理解，这是可能的。请根据您的感觉进行更新，同时我将更新查询。count（）不能接受任何参数。注意：我需要这个在PySpark。我的坏，编辑！你测试过了吗？它有效吗？费拉拉，嘿，伙计，那.count（）是对我有效的方法，显然两者都有效，但我坚持使用.count（），而不是.agg（）方法。
df = train_file.join(test_file, on=['A', 'C'], how='left_outer')
group_df = df.groupBy(['A', 'C']).agg(f.count('class'))