Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark I';m在加入Spark Dataframe时遇到意外的失败断言错误-发现重复的重写属性_Apache Spark_Pyspark_Databricks - Fatal编程技术网

Apache spark I';m在加入Spark Dataframe时遇到意外的失败断言错误-发现重复的重写属性

Apache spark I';m在加入Spark Dataframe时遇到意外的失败断言错误-发现重复的重写属性,apache-spark,pyspark,databricks,Apache Spark,Pyspark,Databricks,当我运行下面的代码时,得到错误java.lang.AssertionError:assertion failed:Found duplicate rewrite attributes。在更新我们的databricks运行时之前,它运行得很顺利 top10_df是一个数据帧,在列表组中具有唯一键 res_df是top10_df中具有最小和最大日期的唯一键的集合 创建并持久化res_df后,它将重新加入组中唯一键的前10_df 而不是: out_df=(top10_df.别名('t10'))

当我运行下面的代码时,得到错误java.lang.AssertionError:assertion failed:Found duplicate rewrite attributes。在更新我们的databricks运行时之前,它运行得很顺利

  • top10_df是一个数据帧,在列表
    中具有唯一键

  • res_df是top10_df中具有最小和最大日期的唯一键的集合

  • 创建并持久化res_df后,它将重新加入组中唯一键的前10_df

  • 而不是: out_df=(top10_df.别名('t10')) .join(res_df.alias('res'),groups,'left')

    在连接之后,选择并别名右侧df中的所有列,以消除重复属性的歧义:

    out_df = (top10_df.alias('t10')
    .join(res_df.alias('res')
    .select(fn.col('groups').alias('groups'),
    fn.col('min_date_created').alias('min_date_created'),
    fn.col('max_date_created').alias('max_date_created')),
    groups,'left')
    
    out_df = (top10_df.alias('t10')
    .join(res_df.alias('res')
    .select(fn.col('groups').alias('groups'),
    fn.col('min_date_created').alias('min_date_created'),
    fn.col('max_date_created').alias('max_date_created')),
    groups,'left')