Hadoop AWS胶水问题，带双引号和逗号_Hadoop_Hive_Presto_Amazon Athena_Aws Glue

Hadoop AWS胶水问题，带双引号和逗号

hadoop hive

Hadoop AWS胶水问题，带双引号和逗号,hadoop,hive,presto,amazon-athena,aws-glue,Hadoop,Hive,Presto,Amazon Athena,Aws Glue,我有这个CSV文件： reference,address V7T452F4H9,"12410 W 62TH ST, AA D" 表定义中使用了以下选项 ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde' WITH SERDEPROPERTIES ( 'quoteChar'='\"', 'separatorChar'=',') 但它仍然无法识别数据中的双引号，而双引号字段中的逗号正在弄乱数据。当我运行

我有这个CSV文件：

reference,address
V7T452F4H9,"12410 W 62TH ST, AA D"

表定义中使用了以下选项

ROW FORMAT SERDE 
  'org.apache.hadoop.hive.serde2.OpenCSVSerde' 
WITH SERDEPROPERTIES ( 
  'quoteChar'='\"', 
  'separatorChar'=',')

但它仍然无法识别数据中的双引号，而双引号字段中的逗号正在弄乱数据。当我运行Athena查询时，结果如下所示

reference     address
V7T452F4H9    "12410 W 62TH ST

如何解决此问题？

看起来您还需要添加

escapeChar

。显示此示例：

CREATE EXTERNAL TABLE myopencsvtable (
   col1 string,
   col2 string,
   col3 string,
   col4 string
)
ROW FORMAT SERDE 
'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES (
   'separatorChar' = ',',
   'quoteChar' = '\"',
   'escapeChar' = '\\'
   )
STORED AS TEXTFILE
LOCATION 's3://location/of/csv/';

我这样做是为了解决：

1-创建一个不会覆盖目标表属性的爬虫程序，我使用了boto3，但可以在AWS控制台中创建它，这样做（更改de xxx var）：

2-编辑序列化库，我在AWS控制台中这样做，比如说这篇文章（）只要改变这个：

3-再次运行爬虫。像往常一样运行爬虫程序：

4-就是这样，您的第二次运行不应更改表中的任何数据，它只是为了测试它是否有效”\_(ツ)_/“.

你是个救命恩人！我找到了另一个有用的链接-->

import boto3

client = boto3.client('glue')

response = client.create_crawler(
    Name='xxx-Crawler-Name',
    Role='xxx-Put-here-your-rol',
    DatabaseName='xxx-databaseName',
    Description='xxx-Crawler description if u need it',
    Targets={
        'S3Targets': [
            {
                'Path': 's3://xxx-Path-to-s3/',
                'Exclusions': [
                ]
            },
        ]
    },
    SchemaChangePolicy={
        'UpdateBehavior': 'LOG',
        'DeleteBehavior': 'LOG'
    },
    Configuration='{ \
        "Version": 1.0, \
        "CrawlerOutput": { \
            "Partitions": {"AddOrUpdateBehavior": "InheritFromTable" \
            }, \
            "Tables": {"AddOrUpdateBehavior": "MergeNewColumns" } \
        }  \
    }'
)

# run the crawler
response = client.start_crawler(
    Name='xxx-Crawler-Name'
)