使用pyspark,我想对0小时的计数进行最大和,有可能吗
v=车辆计数器方向。选择(“小时”、“类别名称”)。过滤器(车辆计数器方向余弦isin(li))。分组依据(“类别名称”、“小时”)。计数()。排序依据(“小时”) v、 显示(截断=假) 我想要这样的订单使用pyspark,我想对0小时的计数进行最大和,有可能吗,pyspark,apache-spark-sql,Pyspark,Apache Spark Sql,v=车辆计数器方向。选择(“小时”、“类别名称”)。过滤器(车辆计数器方向余弦isin(li))。分组依据(“类别名称”、“小时”)。计数()。排序依据(“小时”) v、 显示(截断=假) 我想要这样的订单 +---------+----+-----+ |classname|hour|count| +---------+----+-----+ |LGV |0 |272 | |HGV_ART |0 |309 | |MBIKE |0 |7 | |BUS
+---------+----+-----+
|classname|hour|count|
+---------+----+-----+
|LGV |0 |272 |
|HGV_ART |0 |309 |
|MBIKE |0 |7 |
|BUS |0 |123 |
|CAR |0 |2167 |
|HGV_RIG |0 |33 |
|CARAVAN |0 |3 |
问题不清楚,但在我看来,您想用零过滤行吗
df = df.filter(df.hour == 0)
df.display()
你应该更好地描述你的问题。这是不是
v=Vehicle\u counter\u DF.选择(“hour”,“classname”).filter(Vehicle\u counter\u DF.cosit.isin(li)).groupBy(“classname”,“hour”).count().orderBy(“hour”)v.show(truncate=False)
处理您的问题吗?
df = df.filter(df.hour == 0)
df.display()