Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/loops/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark PySpark在创建包含现有列名的新列时读取多个文件_Apache Spark_Pyspark_Databricks - Fatal编程技术网

Apache spark PySpark在创建包含现有列名的新列时读取多个文件

Apache spark PySpark在创建包含现有列名的新列时读取多个文件,apache-spark,pyspark,databricks,Apache Spark,Pyspark,Databricks,我想使用pyspark读取n个csv文件。csv具有相同的架构,但列名称不同 在读取这些文件时,我想创建一个额外的列“pipeline”,其中包含第一个列名的子字符串 我如何实现这一点 df = spark.read.format("csv") \ .option("header", True) \ .load(path + "*.csv") .withColumn("pipeline", 请

我想使用pyspark读取n个csv文件。csv具有相同的架构,但列名称不同

在读取这些文件时,我想创建一个额外的列“pipeline”,其中包含第一个列名的子字符串

我如何实现这一点

 df = spark.read.format("csv") \
                .option("header", True) \
                .load(path + "*.csv")
                .withColumn("pipeline", 

请在回答中添加说明或注释。列标题未知,如何检索“标题_1”?
df = spark.read.format("csv") \
                .option("header", "false") \
                .load(path + "*.csv")
                .toDF('header_1')
                .withColumn("pipeline", lit(path))