Apache spark PySpark在创建包含现有列名的新列时读取多个文件
我想使用pyspark读取n个csv文件。csv具有相同的架构,但列名称不同 在读取这些文件时,我想创建一个额外的列“pipeline”,其中包含第一个列名的子字符串 我如何实现这一点Apache spark PySpark在创建包含现有列名的新列时读取多个文件,apache-spark,pyspark,databricks,Apache Spark,Pyspark,Databricks,我想使用pyspark读取n个csv文件。csv具有相同的架构,但列名称不同 在读取这些文件时,我想创建一个额外的列“pipeline”,其中包含第一个列名的子字符串 我如何实现这一点 df = spark.read.format("csv") \ .option("header", True) \ .load(path + "*.csv") .withColumn("pipeline", 请
df = spark.read.format("csv") \
.option("header", True) \
.load(path + "*.csv")
.withColumn("pipeline",
请在回答中添加说明或注释。列标题未知,如何检索“标题_1”?
df = spark.read.format("csv") \
.option("header", "false") \
.load(path + "*.csv")
.toDF('header_1')
.withColumn("pipeline", lit(path))