Python PySpark内部联接产生的行太多?
我正在Jupyter笔记本中使用PySpark。Python PySpark内部联接产生的行太多?,python,apache-spark,pyspark,apache-spark-sql,inner-join,Python,Apache Spark,Pyspark,Apache Spark Sql,Inner Join,我正在Jupyter笔记本中使用PySpark。 我正在尝试使用两个数据集进行内部连接:一个有2455行,另一个超过100万行。为什么内部联接产生这么多行?它应该小于不,这不是必需的,就拿这个例子来说 df 1= +------+------+ | t1 | t2 | +------+------+ | 1 | A | | 2 | B | +------+------+ df 2= +------+------+ | t1 | t3 | +------+
我正在尝试使用两个数据集进行内部连接:一个有2455行,另一个超过100万行。为什么内部联接产生这么多行?它应该小于不,这不是必需的,就拿这个例子来说 df 1=
+------+------+
| t1 | t2 |
+------+------+
| 1 | A |
| 2 | B |
+------+------+
df 2=
+------+------+
| t1 | t3 |
+------+------+
| 1 | A2 |
| 2 | B2 |
| 3 | C2 |
| 1 | D2 |
| 2 | E2 |
+------+------+
用您的话说,键“t1”的内部连接长度不得超过2,但不得:
与第一列相关的内部连接应为:
+------+------+------+
| t1 | t2 | t3 |
+------+------+------+
| 1 | A | A2 |
| 1 | A | D2 |
| 2 | B | B2 |
| 2 | B | E2 |
+------+------+------+
+------+------+------+
| t1 | t2 | t3 |
+------+------+------+
| 1 | A | A2 |
| 1 | A | D2 |
| 2 | B | B2 |
| 2 | B | E2 |
+------+------+------+