Pandas 在Pyspark中压缩多个文件_Pandas_Pyspark

Pandas 在Pyspark中压缩多个文件

pandas pyspark

Pandas 在Pyspark中压缩多个文件,pandas,pyspark,Pandas,Pyspark,希望使用pyspark在单个数据帧中连接多个文件的内容，就像我们在pandas中所做的那样文件1： 1 2 3 文件2： a b c d 预期产出： 1, a 2, b 3, c , d spark=SparkSession.Builder（）.master( ).config（conf=）.appName（） spark_session=spark.getOrCreate（） df=spark_session.read\ .format（“c

希望使用pyspark在单个数据帧中连接多个文件的内容，就像我们在pandas中所做的那样

文件1：

1  
2  
3

文件2：

a  
b  
c  
d

预期产出：

1, a  
2, b  
3, c  
 , d

spark=SparkSession.Builder（）.master(
).config（conf=）.appName（）
spark_session=spark.getOrCreate（）
df=spark_session.read\
.format（“com.databricks.spark.avro”）\
.option（“合并模式”、“真”）\
.load（，）

这里df将是spark数据帧

注意：-在运行此代码之前安装spark_avro jar软件包，或在spark配置中添加以下行以安装spark avro软件包

“spark.jars.packages”：“com.databricks:spark-avro_2.11:4.0.0”

spark = SparkSession.Builder().master(
        <master_url>
    ).config(conf=<spark_config>).appName(<app_name>)
spark_session = spark.getOrCreate()

df = spark_session.read \
     .format("com.databricks.spark.avro") \
     .option("mergeSchema", "true") \
     .load(<csv_path_1>, <csv_path2>)