Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/sorting/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Pyspark -------------+--------------+--------------+ |登录|第1页|第2页|第5页| |第1页|第2页|第5页|第3页| |第2页|第2页|第5页|第3页| |第2页|第5页|第3页|第2页| |第5页|第3页|第2页|退出| |第3页|第2页|退出|退出| |第2页|第2页|退出|退出| |第2页|退出|退出|退出| +-----+--------------+--------------+--------------+_Pyspark_Apache Spark Sql - Fatal编程技术网

Pyspark -------------+--------------+--------------+ |登录|第1页|第2页|第5页| |第1页|第2页|第5页|第3页| |第2页|第2页|第5页|第3页| |第2页|第5页|第3页|第2页| |第5页|第3页|第2页|退出| |第3页|第2页|退出|退出| |第2页|第2页|退出|退出| |第2页|退出|退出|退出| +-----+--------------+--------------+--------------+

Pyspark -------------+--------------+--------------+ |登录|第1页|第2页|第5页| |第1页|第2页|第5页|第3页| |第2页|第2页|第5页|第3页| |第2页|第5页|第3页|第2页| |第5页|第3页|第2页|退出| |第3页|第2页|退出|退出| |第2页|第2页|退出|退出| |第2页|退出|退出|退出| +-----+--------------+--------------+--------------+,pyspark,apache-spark-sql,Pyspark,Apache Spark Sql,在收集第一个数组中的数据时,我使用了“lookahead”5。如有必要,可通过向数组中添加更多元素来增加此数字。在运行sqlThank之前,应删除包含重复页面的列。谢谢!这正是我正在努力解决的问题。关于如何完成它,您有什么想法吗?您应该在运行SQLServer之前删除包含重复页面的列谢谢!这正是我正在努力解决的问题。有什么想法可以让我完成吗?谢谢@werner!不幸的是,如果以后有同一页的记录,代码将无法工作。请参阅我帖子中更新的示例。@kkumar我添加了另一个可能的解决方案谢谢@werner

在收集第一个数组中的数据时,我使用了“lookahead”5。如有必要,可通过向数组中添加更多元素来增加此数字。

在运行sqlThank之前,应删除包含重复页面的列。谢谢!这正是我正在努力解决的问题。关于如何完成它,您有什么想法吗?您应该在运行SQLServer之前删除包含重复页面的列谢谢!这正是我正在努力解决的问题。有什么想法可以让我完成吗?谢谢@werner!不幸的是,如果以后有同一页的记录,代码将无法工作。请参阅我帖子中更新的示例。@kkumar我添加了另一个可能的解决方案谢谢@werner!不幸的是,如果以后有同一页的记录,代码将无法工作。请参阅我文章中更新的示例。@kkumar我添加了另一种可能的解决方案
spark.sql("select *,\
            coalesce(lead(page, 1) over (partition by id order by date_time asc), 'Exit') as next_pagename1, \
            coalesce(lead(page, 2) over (partition by id order by date_time asc), 'Exit') as next_pagename2, \
            coalesce(lead(page, 3) over (partition by id order by date_time asc), 'Exit') as next_pagename3, \
        from temp").show()