Amazon redshift 如何使用EMR中的csv格式和头文件保存表格，并使用存储为文本文件的glue_Amazon Redshift_Amazon Emr_Aws Glue_Aws Glue Data Catalog

Amazon redshift 如何使用EMR中的csv格式和头文件保存表格，并使用存储为文本文件的glue

amazon-redshift

Amazon redshift 如何使用EMR中的csv格式和头文件保存表格，并使用存储为文本文件的glue,amazon-redshift,amazon-emr,aws-glue,aws-glue-data-catalog,Amazon Redshift,Amazon Emr,Aws Glue,Aws Glue Data Catalog,EMR spark（版本5.26）的当前行为与相关的glue目录，同时将数据保存到s3和glue元数据如下我有一个EMR集群，我在下面运行命令情景1 Seq(1,2,3).toDF("id") .write .option("header","true") .option("delimiter","|") .format("csv")

EMR spark（版本5.26）的当前行为与相关的glue目录，同时将数据保存到s3和glue元数据如下

我有一个EMR集群，我在下面运行命令

情景1

Seq(1,2,3).toDF("id")
    .write
    .option("header","true")
    .option("delimiter","|")
    .format("csv")
    .saveAsTable("testdb.spark_csv_test_v1")

这就产生了

S3文件正确使用头和“|”分隔数据

Glue元数据是输入格式（org.apache.hadoop.mapred.SequenceFileInputFormat）、输出格式（org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat）、序列化库（org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe）

模式

# 列名数据类型分区密钥评论 1. 上校排列 - 来自反序列化程序

在场景2中，您正在向表属性添加“skip.header.line.count”=“1”，根据，该属性将跳过标题行。那么，没有这个选项你能试试吗