Python PySpark内部联接产生的行太多？_Python_Apache Spark_Pyspark_Apache Spark Sql_Inner Join

Python PySpark内部联接产生的行太多？

python apache-spark pyspark

Python PySpark内部联接产生的行太多？,python,apache-spark,pyspark,apache-spark-sql,inner-join,Python,Apache Spark,Pyspark,Apache Spark Sql,Inner Join,我正在Jupyter笔记本中使用PySpark。我正在尝试使用两个数据集进行内部连接：一个有2455行，另一个超过100万行。为什么内部联接产生这么多行？它应该小于不，这不是必需的，就拿这个例子来说 df 1= +------+------+ | t1 | t2 | +------+------+ | 1 | A | | 2 | B | +------+------+ df 2= +------+------+ | t1 | t3 | +------+

我正在Jupyter笔记本中使用PySpark。

我正在尝试使用两个数据集进行内部连接：一个有2455行，另一个超过100万行。为什么内部联接产生这么多行？它应该小于不，这不是必需的，就拿这个例子来说

df 1=

+------+------+
| t1   | t2   |
+------+------+
|    1 | A    |
|    2 | B    |
+------+------+

df 2=

+------+------+
| t1   | t3   |
+------+------+
|    1 | A2   |
|    2 | B2   |
|    3 | C2   |
|    1 | D2   |
|    2 | E2   |
+------+------+

用您的话说，键“t1”的内部连接长度不得超过2，但不得：

与第一列相关的内部连接应为：

+------+------+------+
| t1   | t2   | t3   |
+------+------+------+
|    1 | A    | A2   |
|    1 | A    | D2   |
|    2 | B    | B2   |
|    2 | B    | E2   |
+------+------+------+

+------+------+------+
| t1   | t2   | t3   |
+------+------+------+
|    1 | A    | A2   |
|    1 | A    | D2   |
|    2 | B    | B2   |
|    2 | B    | E2   |
+------+------+------+