Pandas 在Pyspark中压缩多个文件

Pandas 在Pyspark中压缩多个文件,pandas,pyspark,Pandas,Pyspark,希望使用pyspark在单个数据帧中连接多个文件的内容,就像我们在pandas中所做的那样 文件1: 1 2 3 文件2: a b c d 预期产出: 1, a 2, b 3, c , d spark=SparkSession.Builder().master( ).config(conf=).appName() spark_session=spark.getOrCreate() df=spark_session.read\ .format(“c

希望使用pyspark在单个数据帧中连接多个文件的内容,就像我们在pandas中所做的那样

文件1:

1  
2  
3  
文件2:

a  
b  
c  
d  
预期产出:

1, a  
2, b  
3, c  
 , d 
spark=SparkSession.Builder().master(
).config(conf=).appName()
spark_session=spark.getOrCreate()
df=spark_session.read\
.format(“com.databricks.spark.avro”)\
.option(“合并模式”、“真”)\
.load(,)
这里df将是spark数据帧

注意:-在运行此代码之前安装spark_avro jar软件包,或在spark配置中添加以下行以安装spark avro软件包

“spark.jars.packages”:“com.databricks:spark-avro_2.11:4.0.0”

spark = SparkSession.Builder().master(
        <master_url>
    ).config(conf=<spark_config>).appName(<app_name>)
spark_session = spark.getOrCreate()

df = spark_session.read \
     .format("com.databricks.spark.avro") \
     .option("mergeSchema", "true") \
     .load(<csv_path_1>, <csv_path2>)