Amazon web services 如何使用glueContext.create_dynamic_frame_from_options读取大量Json存储桶

Amazon web services 如何使用glueContext.create_dynamic_frame_from_options读取大量Json存储桶,amazon-web-services,amazon-s3,pyspark,aws-glue,Amazon Web Services,Amazon S3,Pyspark,Aws Glue,真希望有人能帮我 我想读入路径“s3://…/year=2019/month=11/day=06/”中的所有json文件。如何使用glueContext.create_dynamic_frame_from_options 如果我使用glueContext.create\u dynamic\u frame\u from\u options(“s3”,format=“json”,connection\u options={“path”:[“s3://…/年=2019/月=11/日=06/”]),它将

真希望有人能帮我

我想读入路径“s3://…/year=2019/month=11/day=06/”中的所有json文件。如何使用glueContext.create_dynamic_frame_from_options

如果我使用glueContext.create\u dynamic\u frame\u from\u options(“s3”,format=“json”,connection\u options={“path”:[“s3://…/年=2019/月=11/日=06/”]),它将不起作用

我不得不列出每一个子桶,我觉得应该有更好的方法。例如:我必须这样做
df0=glueContext.create\u dynamic\u frame\u from\u options(“s3”,format=“json”,connection\u options={“path”:[“s3://…/年=2019/月=11/天=06/天=06/小时=20/分钟=12/”,“s3://…/年=2019/月=11/天=06/小时=20/分钟=14/”,“s3://…/年=2019/月=11/天=06/小时=20/分钟=15/”,“s3://…/年=2019/月=11/天=06/小时=20/分钟=16/”)


我有成千上万的子存储桶要列出,因此我非常感谢任何关于如何让我的生活更轻松的指导。谢谢!!

您将要使用Glue Crawler在Glue数据目录中创建表。然后您可以通过

glueContext.create_dynamic_frame.from_catalog(
    database="mydb",
    table_name="mytable")

这篇AWS博客文章解释了如何在Glue中处理分区数据。

我发现了解决方案->在读取大量文件时使用“递归”选项。

您是否在这个s3路径上创建了分区表?@bdcloud我想年、月、日、小时分钟都是分区谢谢!不过我一直在努力避免爬虫