Pyspark -------------+--------------+--------------+ |登录|第1页|第2页|第5页| |第1页|第2页|第5页|第3页| |第2页|第2页|第5页|第3页| |第2页|第5页|第3页|第2页| |第5页|第3页|第2页|退出| |第3页|第2页|退出|退出| |第2页|第2页|退出|退出| |第2页|退出|退出|退出| +-----+--------------+--------------+--------------+_Pyspark_Apache Spark Sql

Pyspark -------------+--------------+--------------+ |登录|第1页|第2页|第5页| |第1页|第2页|第5页|第3页| |第2页|第2页|第5页|第3页| |第2页|第5页|第3页|第2页| |第5页|第3页|第2页|退出| |第3页|第2页|退出|退出| |第2页|第2页|退出|退出| |第2页|退出|退出|退出| +-----+--------------+--------------+--------------+

pyspark

Pyspark -------------+--------------+--------------+ |登录|第1页|第2页|第5页| |第1页|第2页|第5页|第3页| |第2页|第2页|第5页|第3页| |第2页|第5页|第3页|第2页| |第5页|第3页|第2页|退出| |第3页|第2页|退出|退出| |第2页|第2页|退出|退出| |第2页|退出|退出|退出| +-----+--------------+--------------+--------------+,pyspark,apache-spark-sql,Pyspark,Apache Spark Sql,在收集第一个数组中的数据时，我使用了“lookahead”5。如有必要，可通过向数组中添加更多元素来增加此数字。在运行sqlThank之前，应删除包含重复页面的列。谢谢！这正是我正在努力解决的问题。关于如何完成它，您有什么想法吗？您应该在运行SQLServer之前删除包含重复页面的列谢谢！这正是我正在努力解决的问题。有什么想法可以让我完成吗？谢谢@werner！不幸的是，如果以后有同一页的记录，代码将无法工作。请参阅我帖子中更新的示例。@kkumar我添加了另一个可能的解决方案谢谢@werner

在收集第一个数组中的数据时，我使用了“lookahead”5。如有必要，可通过向数组中添加更多元素来增加此数字。

在运行sqlThank之前，应删除包含重复页面的列。谢谢！这正是我正在努力解决的问题。关于如何完成它，您有什么想法吗？您应该在运行SQLServer之前删除包含重复页面的列谢谢！这正是我正在努力解决的问题。有什么想法可以让我完成吗？谢谢@werner！不幸的是，如果以后有同一页的记录，代码将无法工作。请参阅我帖子中更新的示例。@kkumar我添加了另一个可能的解决方案谢谢@werner！不幸的是，如果以后有同一页的记录，代码将无法工作。请参阅我文章中更新的示例。@kkumar我添加了另一种可能的解决方案

spark.sql("select *,\
            coalesce(lead(page, 1) over (partition by id order by date_time asc), 'Exit') as next_pagename1, \
            coalesce(lead(page, 2) over (partition by id order by date_time asc), 'Exit') as next_pagename2, \
            coalesce(lead(page, 3) over (partition by id order by date_time asc), 'Exit') as next_pagename3, \
        from temp").show()