Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/amazon-s3/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Amazon s3 AWS胶水爬虫-分区密钥类型_Amazon S3_Amazon Athena_Aws Glue_Aws Glue Data Catalog - Fatal编程技术网

Amazon s3 AWS胶水爬虫-分区密钥类型

Amazon s3 AWS胶水爬虫-分区密钥类型,amazon-s3,amazon-athena,aws-glue,aws-glue-data-catalog,Amazon S3,Amazon Athena,Aws Glue,Aws Glue Data Catalog,我正在使用Spark以ORC格式将文件写入S3。 还使用雅典娜查询这些数据 我正在使用以下分区键: s3://bucket/company=1123/date=20190207 一旦我执行Glue crawler在bucket上运行,除了分区键的类型之外,一切都会按预期工作 爬虫程序在目录中将它们配置为String类型,而不是int 是否有定义分区键默认类型的配置 我知道以后可以手动更改,并将爬虫配置设置为“仅添加新列”。粘合爬虫始终将分区键视为类型字符串,不幸的是,没有可用于更改此行为的配置

我正在使用Spark以ORC格式将文件写入S3。 还使用雅典娜查询这些数据

我正在使用以下分区键:

s3://bucket/company=1123/date=20190207
一旦我执行Glue crawler在bucket上运行,除了分区键的类型之外,一切都会按预期工作

爬虫程序在目录中将它们配置为
String
类型,而不是
int

是否有定义分区键默认类型的配置


我知道以后可以手动更改,并将爬虫配置设置为“仅添加新列”。

粘合爬虫始终将分区键视为类型字符串,不幸的是,没有可用于更改此行为的配置选项。

您找到解决方案了吗?遇到同样的问题:我所有的分区键都是int类型,但爬虫发现它们是字符串…在第一次运行爬虫程序后,我将键设置为integer类型,并将爬虫配置更改为
仅添加新列
,这很有意义,但我希望从一开始就有一些可配置/编程选项来处理分区类型发现。这种手动调整不适合于资源调配自动化。另外,
addnewcolumns only
选项在模式偶尔更改时不起作用,因为很容易忘记这个特定的爬虫配置值。。。