在pyspark中的两个不同pyspark.sql.dataframes中创建一个pyspark.sql.dataframes_Pyspark_Pyspark Sql_Apache Spark 2.0

在pyspark中的两个不同pyspark.sql.dataframes中创建一个pyspark.sql.dataframes

pyspark

在pyspark中的两个不同pyspark.sql.dataframes中创建一个pyspark.sql.dataframes,pyspark,pyspark-sql,apache-spark-2.0,Pyspark,Pyspark Sql,Apache Spark 2.0,假设pyspark中的以下两个数据帧的行数相等： df1: |_ 第1a列 |_ 第1B栏 df2: |_ 第2a列 |_ 第2b列我希望创建一个新的数据帧“df”，它只有第1a列和第2a列。什么可能是最好的解决方案？丹尼·李的答案是方法。它涉及在两个数据帧上创建另一列，这是每行的唯一行ID。然后，我们在Unique_Row_ID上执行联接。如果需要，则删除Unique_Row_ID。该解决方案的可能副本着眼于转换数据帧中的现有列或创建新列，而我想选择Column1a和Column1

假设pyspark中的以下两个数据帧的行数相等：
df1:
|_ 第1a列
|_ 第1B栏

df2:
|_ 第2a列
|_ 第2b列

我希望创建一个新的数据帧“df”，它只有第1a列和第2a列。什么可能是最好的解决方案？

丹尼·李的答案是方法。

它涉及在两个数据帧上创建另一列，这是每行的唯一行ID。然后，我们在Unique_Row_ID上执行联接。如果需要，则删除Unique_Row_ID。

该解决方案的可能副本着眼于转换数据帧中的现有列或创建新列，而我想选择Column1a和Column1b以形成新的数据帧。联接的上下文是否基于位置？例如，在这个答案中使用

rownumber（）

方法有效吗？我需要试一试，也许就可以了。我将在周末试一试。谢谢你的帮助。我会回来告诉你事情的进展。