Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/string/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python PySpark内部联接产生的行太多?_Python_Apache Spark_Pyspark_Apache Spark Sql_Inner Join - Fatal编程技术网

Python PySpark内部联接产生的行太多?

Python PySpark内部联接产生的行太多?,python,apache-spark,pyspark,apache-spark-sql,inner-join,Python,Apache Spark,Pyspark,Apache Spark Sql,Inner Join,我正在Jupyter笔记本中使用PySpark。 我正在尝试使用两个数据集进行内部连接:一个有2455行,另一个超过100万行。为什么内部联接产生这么多行?它应该小于不,这不是必需的,就拿这个例子来说 df 1= +------+------+ | t1 | t2 | +------+------+ | 1 | A | | 2 | B | +------+------+ df 2= +------+------+ | t1 | t3 | +------+

我正在Jupyter笔记本中使用PySpark。
我正在尝试使用两个数据集进行内部连接:一个有2455行,另一个超过100万行。为什么内部联接产生这么多行?它应该小于不,这不是必需的,就拿这个例子来说

df 1=

+------+------+
| t1   | t2   |
+------+------+
|    1 | A    |
|    2 | B    |
+------+------+
df 2=

+------+------+
| t1   | t3   |
+------+------+
|    1 | A2   |
|    2 | B2   |
|    3 | C2   |
|    1 | D2   |
|    2 | E2   |
+------+------+
用您的话说,键“t1”的内部连接长度不得超过2,但不得:

与第一列相关的内部连接应为:

+------+------+------+
| t1   | t2   | t3   |
+------+------+------+
|    1 | A    | A2   |
|    1 | A    | D2   |
|    2 | B    | B2   |
|    2 | B    | E2   |
+------+------+------+
+------+------+------+
| t1   | t2   | t3   |
+------+------+------+
|    1 | A    | A2   |
|    1 | A    | D2   |
|    2 | B    | B2   |
|    2 | B    | E2   |
+------+------+------+