Apache spark 火花管接头与使用点燃式火花添加柱
这是一个与火花有关的问题。我必须将静态数据添加到各种类型的记录中,每种类型的记录都作为不同的数据帧进行处理(例如df1、df2、…df6) 我打算添加的静态数据必须与所有6个数据帧一起重复 哪种方式更有效:Apache spark 火花管接头与使用点燃式火花添加柱,apache-spark,pyspark,Apache Spark,Pyspark,这是一个与火花有关的问题。我必须将静态数据添加到各种类型的记录中,每种类型的记录都作为不同的数据帧进行处理(例如df1、df2、…df6) 我打算添加的静态数据必须与所有6个数据帧一起重复 哪种方式更有效: 对于6个数据帧中的每一个,使用: 或 创建一个新的DF,比如staticDF,它包含我想要附加到6个数据帧中的每一个的所有列,并使用一个联合 或 还有我没有考虑过的其他选择吗?第一种方法是正确的。第二种方法不起作用,因为union向数据帧添加行,而不是列 另一种方法是使用select同时选择
还有我没有考虑过的其他选择吗?第一种方法是正确的。第二种方法不起作用,因为union向数据帧添加行,而不是列 另一种方法是使用
select
同时选择所有新列:
df2 = df.select(
'*',
lit('somethingA').alias('testA'),
lit('somethingB').alias('testB'),
lit('somethingC').alias('testC')
)
你认为一个只包含文字值的广播数据帧的连接怎么样?@mike我猜它最终会对此进行优化。。。但是我想对于这个简单的操作来说,性能不是什么大问题
df2 = df.select(
'*',
lit('somethingA').alias('testA'),
lit('somethingB').alias('testB'),
lit('somethingC').alias('testC')
)