在pyspark中的两个不同pyspark.sql.dataframes中创建一个pyspark.sql.dataframes
假设pyspark中的以下两个数据帧的行数相等:在pyspark中的两个不同pyspark.sql.dataframes中创建一个pyspark.sql.dataframes,pyspark,pyspark-sql,apache-spark-2.0,Pyspark,Pyspark Sql,Apache Spark 2.0,假设pyspark中的以下两个数据帧的行数相等: df1: |_ 第1a列 |_ 第1B栏 df2: |_ 第2a列 |_ 第2b列 我希望创建一个新的数据帧“df”,它只有第1a列和第2a列。什么可能是最好的解决方案?丹尼·李的答案是方法。 它涉及在两个数据帧上创建另一列,这是每行的唯一行ID。然后,我们在Unique_Row_ID上执行联接。如果需要,则删除Unique_Row_ID。该解决方案的可能副本着眼于转换数据帧中的现有列或创建新列,而我想选择Column1a和Column1
df1:
|_ 第1a列
|_ 第1B栏 df2:
|_ 第2a列
|_ 第2b列
我希望创建一个新的数据帧“df”,它只有第1a列和第2a列。什么可能是最好的解决方案?丹尼·李的答案是方法。
它涉及在两个数据帧上创建另一列,这是每行的唯一行ID。然后,我们在Unique_Row_ID上执行联接。如果需要,则删除Unique_Row_ID。该解决方案的可能副本着眼于转换数据帧中的现有列或创建新列,而我想选择Column1a和Column1b以形成新的数据帧。联接的上下文是否基于位置?例如,在这个答案中使用
rownumber()
方法有效吗?我需要试一试,也许就可以了。我将在周末试一试。谢谢你的帮助。我会回来告诉你事情的进展。