Amazon web services AWS胶水JSON限制
尝试使用AWS Glue在S3存储桶中自动抓取和编目JSON文件,如下所述: 小于1mb的文件已成功编目,但大于1mb的文件未能编目,并被归类为Amazon web services AWS胶水JSON限制,amazon-web-services,aws-glue,Amazon Web Services,Aws Glue,尝试使用AWS Glue在S3存储桶中自动抓取和编目JSON文件,如下所述: 小于1mb的文件已成功编目,但大于1mb的文件未能编目,并被归类为未知 您尝试过以下列出的方法: 然而,这没有什么区别 想知道是否有人有过类似的问题吗?我也有同样的问题。你有没有尝试过将数据平铺成ORC或类似的格式?对于一定大小的嵌套JSON,即使使用自定义分类器,似乎也有限制。或者您可以从 [ { .... }, { .....}, ] 进入公正 { ... } { ... } 它应该在胶水中起作
未知
您尝试过以下列出的方法:
然而,这没有什么区别
想知道是否有人有过类似的问题吗?我也有同样的问题。你有没有尝试过将数据平铺成ORC或类似的格式?对于一定大小的嵌套JSON,即使使用自定义分类器,似乎也有限制。或者您可以从
[
{ .... },
{ .....},
]
进入公正
{ ... }
{ ... }
它应该在胶水中起作用
这是我运行的Python脚本,用于实现转换(使用200 mb JSON):
现在胶水正确地分类了它 谢谢,我会看看这是否有用!
import json
with open('./Data/data.json') as f:
data = json.load(f)
with open('./Data/data_flat.json', 'w') as file:
for entry in data['locations']:
file.write(json.dumps(entry)+'\n')