Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop 如何将一行与spark数据集中的所有其他行进行比较?_Hadoop_Apache Spark_Apache Spark Sql_Bigdata - Fatal编程技术网

Hadoop 如何将一行与spark数据集中的所有其他行进行比较?

Hadoop 如何将一行与spark数据集中的所有其他行进行比较?,hadoop,apache-spark,apache-spark-sql,bigdata,Hadoop,Apache Spark,Apache Spark Sql,Bigdata,我有一个从MySQL加载的spark数据集,我想将每一行与数据集中的所有其他行进行比较,并使用获得的结果创建一个新的数据集。有什么方法可以实现吗?您可能希望通过匹配行的字段来连接两个数据集。 您可以匹配两个这样的数据集,并将它们连接起来 val Result=DF1.join(DF2,(DF1(“用户ID”)==DF2(“用户ID”)&&(DF1(“会话ID”)==DF2(“会话ID”)&&(DF1(“日期”)==DF2(“日期”)) 。选择(DF1(“用户ID”)、DF1(“会话ID”)、DF

我有一个从MySQL加载的spark数据集,我想将每一行与数据集中的所有其他行进行比较,并使用获得的结果创建一个新的数据集。有什么方法可以实现吗?

您可能希望通过匹配行的字段来连接两个数据集。 您可以匹配两个这样的数据集,并将它们连接起来

val Result=DF1.join(DF2,(DF1(“用户ID”)==DF2(“用户ID”)&&(DF1(“会话ID”)==DF2(“会话ID”)&&(DF1(“日期”)==DF2(“日期”))
。选择(DF1(“用户ID”)、DF1(“会话ID”)、DF1(“日期”)、DF2(“国家”))

您可能希望通过匹配行的字段来连接两个数据集。 您可以匹配两个这样的数据集,并将它们连接起来

val Result=DF1.join(DF2,(DF1(“用户ID”)==DF2(“用户ID”)&&(DF1(“会话ID”)==DF2(“会话ID”)&&(DF1(“日期”)==DF2(“日期”)) 。选择(DF1(“用户ID”)、DF1(“会话ID”)、DF1(“日期”)、DF2(“国家”))

您可以在此处查看:。你还想做什么样的比较?你可以看这里:。否则你想做什么样的比较?