Sql 是否有一种方法可以将一个数据帧的一列中的所有行与另一个数据帧(spark)的另一列中的所有行进行比较?
我在Spark中有两个数据帧,都有一个IP列。一列有超过800000个条目,而另一列有4000个条目。我想做的是查看较小数据帧中的IP是否出现在较大数据帧的IP列中 目前我所能做的就是比较第一行的列、第二行的列等等Sql 是否有一种方法可以将一个数据帧的一列中的所有行与另一个数据帧(spark)的另一列中的所有行进行比较?,sql,scala,apache-spark,pyspark,apache-zeppelin,Sql,Scala,Apache Spark,Pyspark,Apache Zeppelin,我在Spark中有两个数据帧,都有一个IP列。一列有超过800000个条目,而另一列有4000个条目。我想做的是查看较小数据帧中的IP是否出现在较大数据帧的IP列中 目前我所能做的就是比较第一行的列、第二行的列等等 提前谢谢 直接从手册中使用EXISTS或NOT EXISTS,创建了TempView之后,可以这样做,请参见此处: 我想你是在描述一个 %sql SELECT * FROM t1 A WHERE NOT EXISTS (SELECT 1
提前谢谢 直接从手册中使用EXISTS或NOT EXISTS,创建了TempView之后,可以这样做,请参见此处: 我想你是在描述一个
%sql
SELECT *
FROM t1 A
WHERE NOT EXISTS (SELECT 1
FROM t2 B
WHERE B.colx = A.colx)