Apache spark PySpark在创建包含现有列名的新列时读取多个文件_Apache Spark_Pyspark_Databricks

Apache spark PySpark在创建包含现有列名的新列时读取多个文件

apache-spark pyspark

Apache spark PySpark在创建包含现有列名的新列时读取多个文件,apache-spark,pyspark,databricks,Apache Spark,Pyspark,Databricks,我想使用pyspark读取n个csv文件。csv具有相同的架构，但列名称不同在读取这些文件时，我想创建一个额外的列“pipeline”，其中包含第一个列名的子字符串我如何实现这一点 df = spark.read.format("csv") \ .option("header", True) \ .load(path + "*.csv") .withColumn("pipeline", 请

我想使用pyspark读取n个csv文件。csv具有相同的架构，但列名称不同

在读取这些文件时，我想创建一个额外的列“pipeline”，其中包含第一个列名的子字符串

我如何实现这一点

 df = spark.read.format("csv") \
                .option("header", True) \
                .load(path + "*.csv")
                .withColumn("pipeline",

请在回答中添加说明或注释。列标题未知，如何检索“标题_1”？

df = spark.read.format("csv") \
                .option("header", "false") \
                .load(path + "*.csv")
                .toDF('header_1')
                .withColumn("pipeline", lit(path))