Pandas 在Pyspark中压缩多个文件
希望使用pyspark在单个数据帧中连接多个文件的内容,就像我们在pandas中所做的那样 文件1:Pandas 在Pyspark中压缩多个文件,pandas,pyspark,Pandas,Pyspark,希望使用pyspark在单个数据帧中连接多个文件的内容,就像我们在pandas中所做的那样 文件1: 1 2 3 文件2: a b c d 预期产出: 1, a 2, b 3, c , d spark=SparkSession.Builder().master( ).config(conf=).appName() spark_session=spark.getOrCreate() df=spark_session.read\ .format(“c
1
2
3
文件2:
a
b
c
d
预期产出:
1, a
2, b
3, c
, d
spark=SparkSession.Builder().master(
).config(conf=).appName()
spark_session=spark.getOrCreate()
df=spark_session.read\
.format(“com.databricks.spark.avro”)\
.option(“合并模式”、“真”)\
.load(,)
这里df将是spark数据帧
注意:-在运行此代码之前安装spark_avro jar软件包,或在spark配置中添加以下行以安装spark avro软件包
“spark.jars.packages”:“com.databricks:spark-avro_2.11:4.0.0”
spark = SparkSession.Builder().master(
<master_url>
).config(conf=<spark_config>).appName(<app_name>)
spark_session = spark.getOrCreate()
df = spark_session.read \
.format("com.databricks.spark.avro") \
.option("mergeSchema", "true") \
.load(<csv_path_1>, <csv_path2>)