Python TypeError:window()缺少2个必需的位置参数:';时间列';和';窗口持续时间';尽管如此
我看到window()方法出现了标题错误。然而,我甚至试着把它们明确地放进去,如下所示。(在我尝试此操作之前,我遇到了错误,我们的代码演示显示它可以在没有显式调用的情况下工作。) 这是在Databricks上的Spark-Python中实现的。有人有什么想法吗 日期列的架构是使用以下内容创建的:Python TypeError:window()缺少2个必需的位置参数:';时间列';和';窗口持续时间';尽管如此,python,pyspark,apache-spark-sql,Python,Pyspark,Apache Spark Sql,我看到window()方法出现了标题错误。然而,我甚至试着把它们明确地放进去,如下所示。(在我尝试此操作之前,我遇到了错误,我们的代码演示显示它可以在没有显式调用的情况下工作。) 这是在Databricks上的Spark-Python中实现的。有人有什么想法吗 日期列的架构是使用以下内容创建的: StructField('Date', TimestampType(), True), \ 以下代码使数据帧进入问题行: countFifaStaticHash = staticFIFAdf.with
StructField('Date', TimestampType(), True), \
以下代码使数据帧进入问题行:
countFifaStaticHash = staticFIFAdf.withColumn('Hashtags', f.explode(f.split('Hashtags',',')))
下面是运行.show()时上述内容的一个简短示例:
我想您想按窗口列的值排序。在这种情况下,您可以按窗口别名分组,并按别名窗口排序:
staticCountedHash = countFifaStaticHash.groupBy(
f.window(timeColumn="Date", windowDuration="60 minutes", slideDuration="30 minutes").alias('window'),
'Hashtags'
).agg(
f.count('Hashtags').alias('Hash_ct')
).filter(
f.col('Hash_ct') > 100
).orderBy(
f.col('window').asc(),
f.col('Hash_ct').desc()
)
天啊!我真不敢相信我错过了。非常感谢你!!
staticCountedHash = countFifaStaticHash.groupBy(
f.window(timeColumn="Date", windowDuration="60 minutes", slideDuration="30 minutes").alias('window'),
'Hashtags'
).agg(
f.count('Hashtags').alias('Hash_ct')
).filter(
f.col('Hash_ct') > 100
).orderBy(
f.col('window').asc(),
f.col('Hash_ct').desc()
)