Amazon redshift 如何使用EMR中的csv格式和头文件保存表格,并使用存储为文本文件的glue

Amazon redshift 如何使用EMR中的csv格式和头文件保存表格,并使用存储为文本文件的glue,amazon-redshift,amazon-emr,aws-glue,aws-glue-data-catalog,Amazon Redshift,Amazon Emr,Aws Glue,Aws Glue Data Catalog,EMR spark(版本5.26)的当前行为与相关的glue目录,同时将数据保存到s3和glue元数据如下 我有一个EMR集群,我在下面运行命令 情景1 Seq(1,2,3).toDF("id") .write .option("header","true") .option("delimiter","|") .format("csv")

EMR spark(版本5.26)的当前行为与相关的glue目录,同时将数据保存到s3和glue元数据如下

我有一个EMR集群,我在下面运行命令

情景1

Seq(1,2,3).toDF("id")
    .write
    .option("header","true")
    .option("delimiter","|")
    .format("csv")
    .saveAsTable("testdb.spark_csv_test_v1")
这就产生了

  • S3文件正确使用头和“|”分隔数据
  • Glue元数据是输入格式(org.apache.hadoop.mapred.SequenceFileInputFormat)、输出格式(org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat)、序列化库(org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe)
  • 模式
  • # 列名 数据类型 分区密钥 评论 1. 上校 排列 - 来自反序列化程序
    在场景2中,您正在向表属性添加“skip.header.line.count”=“1”,根据,该属性将跳过标题行。那么,没有这个选项你能试试吗