Amazon web services 胶水爬虫程序无法识别时间戳

Amazon web services 胶水爬虫程序无法识别时间戳,amazon-web-services,amazon-cloudformation,aws-glue,aws-glue-data-catalog,Amazon Web Services,Amazon Cloudformation,Aws Glue,Aws Glue Data Catalog,我的S3存储桶中有JSON文件,这些文件可能会不时更改其模式。为了能够分析我想要周期性地运行胶水爬虫的数据,Athena中的分析通常是有效的 问题:我的时间戳字符串未被识别为时间戳 时间戳目前的格式如下2020-04-06T10:37:38+00:00,但我也尝试过其他格式,例如2020-04-06 10:37:38-我可以控制并调整格式 设置serde参数的建议可能不适用于我的应用程序,我希望完全识别方案,而不必单独定义每个字段。() 通常不需要在表中进行手动调整,我希望在CloudForma

我的S3存储桶中有JSON文件,这些文件可能会不时更改其模式。为了能够分析我想要周期性地运行胶水爬虫的数据,Athena中的分析通常是有效的

问题:我的时间戳字符串未被识别为时间戳

时间戳目前的格式如下
2020-04-06T10:37:38+00:00
,但我也尝试过其他格式,例如
2020-04-06 10:37:38
-我可以控制并调整格式

设置serde参数的建议可能不适用于我的应用程序,我希望完全识别方案,而不必单独定义每个字段。() 通常不需要在表中进行手动调整,我希望在CloudFormation堆栈中自动部署Glue


你知道我还能尝试什么吗?

这是一个非常常见的问题。在读取text/json文件时,我们解决这个问题的方法是在转换和设置正确的数据类型之间多做一步。爬虫数据类型有时有点不确定,并且基于当时可用的数据样本

谢谢。您是否有任何文档说明我的时间戳需要如何格式化,以便在粘合表中重新标记为时间戳类型?我尝试了几种格式,到目前为止,运气还不太好。您可能应该使用拼花作为中间文件类型,以便在粘合表定义中使用拼花文件的模式。关于你的问题,什么时间戳格式胶水可以检测为时间戳类型。。。。据我所知,似乎没有任何具体的文档。但是,可能值得尝试pyspark中提到的格式,因为我相信这就是后端使用的格式。这是从spark docos timestampFormat中提取的–设置指示时间戳格式的字符串。自定义日期格式遵循java.text.simpleDataFormat中的格式。这适用于时间戳类型。如果未设置,则使用默认值yyyy-MM-dd'T'HH:MM:ss.SSSXXX。它使用的可能不是spark。但是如果你有时间的话还是值得一试的谢谢你!我尝试了所有这些格式,但都不走运:2020-04-07T11:04:01.1586251321,2020-04-07 11:04:01,2020-04-07 11:04:01,2020-04-07 11:04:01.1586251321+112020-04-07 11:04:01.1586251321+00:00,2020-04-07T11:04:01.1586251321+1,2020-04-04-07T11:04:01.1586251+00:00,有什么想法吗?