Amazon s3 AWS胶水爬虫-分区密钥类型
我正在使用Spark以ORC格式将文件写入S3。 还使用雅典娜查询这些数据 我正在使用以下分区键:Amazon s3 AWS胶水爬虫-分区密钥类型,amazon-s3,amazon-athena,aws-glue,aws-glue-data-catalog,Amazon S3,Amazon Athena,Aws Glue,Aws Glue Data Catalog,我正在使用Spark以ORC格式将文件写入S3。 还使用雅典娜查询这些数据 我正在使用以下分区键: s3://bucket/company=1123/date=20190207 一旦我执行Glue crawler在bucket上运行,除了分区键的类型之外,一切都会按预期工作 爬虫程序在目录中将它们配置为String类型,而不是int 是否有定义分区键默认类型的配置 我知道以后可以手动更改,并将爬虫配置设置为“仅添加新列”。粘合爬虫始终将分区键视为类型字符串,不幸的是,没有可用于更改此行为的配置
s3://bucket/company=1123/date=20190207
一旦我执行Glue crawler在bucket上运行,除了分区键的类型之外,一切都会按预期工作
爬虫程序在目录中将它们配置为String
类型,而不是int
是否有定义分区键默认类型的配置
我知道以后可以手动更改,并将爬虫配置设置为“仅添加新列”。粘合爬虫始终将分区键视为类型字符串,不幸的是,没有可用于更改此行为的配置选项。您找到解决方案了吗?遇到同样的问题:我所有的分区键都是int类型,但爬虫发现它们是字符串…在第一次运行爬虫程序后,我将键设置为integer类型,并将爬虫配置更改为
仅添加新列
,这很有意义,但我希望从一开始就有一些可配置/编程选项来处理分区类型发现。这种手动调整不适合于资源调配自动化。另外,addnewcolumns only
选项在模式偶尔更改时不起作用,因为很容易忘记这个特定的爬虫配置值。。。