Pyspark -------------+--------------+--------------+ |登录|第1页|第2页|第5页| |第1页|第2页|第5页|第3页| |第2页|第2页|第5页|第3页| |第2页|第5页|第3页|第2页| |第5页|第3页|第2页|退出| |第3页|第2页|退出|退出| |第2页|第2页|退出|退出| |第2页|退出|退出|退出| +-----+--------------+--------------+--------------+
在收集第一个数组中的数据时,我使用了“lookahead”5。如有必要,可通过向数组中添加更多元素来增加此数字。在运行sqlThank之前,应删除包含重复页面的列。谢谢!这正是我正在努力解决的问题。关于如何完成它,您有什么想法吗?您应该在运行SQLServer之前删除包含重复页面的列谢谢!这正是我正在努力解决的问题。有什么想法可以让我完成吗?谢谢@werner!不幸的是,如果以后有同一页的记录,代码将无法工作。请参阅我帖子中更新的示例。@kkumar我添加了另一个可能的解决方案谢谢@werner!不幸的是,如果以后有同一页的记录,代码将无法工作。请参阅我文章中更新的示例。@kkumar我添加了另一种可能的解决方案Pyspark -------------+--------------+--------------+ |登录|第1页|第2页|第5页| |第1页|第2页|第5页|第3页| |第2页|第2页|第5页|第3页| |第2页|第5页|第3页|第2页| |第5页|第3页|第2页|退出| |第3页|第2页|退出|退出| |第2页|第2页|退出|退出| |第2页|退出|退出|退出| +-----+--------------+--------------+--------------+,pyspark,apache-spark-sql,Pyspark,Apache Spark Sql,在收集第一个数组中的数据时,我使用了“lookahead”5。如有必要,可通过向数组中添加更多元素来增加此数字。在运行sqlThank之前,应删除包含重复页面的列。谢谢!这正是我正在努力解决的问题。关于如何完成它,您有什么想法吗?您应该在运行SQLServer之前删除包含重复页面的列谢谢!这正是我正在努力解决的问题。有什么想法可以让我完成吗?谢谢@werner!不幸的是,如果以后有同一页的记录,代码将无法工作。请参阅我帖子中更新的示例。@kkumar我添加了另一个可能的解决方案谢谢@werner
spark.sql("select *,\
coalesce(lead(page, 1) over (partition by id order by date_time asc), 'Exit') as next_pagename1, \
coalesce(lead(page, 2) over (partition by id order by date_time asc), 'Exit') as next_pagename2, \
coalesce(lead(page, 3) over (partition by id order by date_time asc), 'Exit') as next_pagename3, \
from temp").show()