Amazon web services 如何使用glueContext.create_dynamic_frame_from_options读取大量Json存储桶_Amazon Web Services_Amazon S3_Pyspark_Aws Glue

Amazon web services 如何使用glueContext.create_dynamic_frame_from_options读取大量Json存储桶

amazon-web-services amazon-s3 pyspark

Amazon web services 如何使用glueContext.create_dynamic_frame_from_options读取大量Json存储桶,amazon-web-services,amazon-s3,pyspark,aws-glue,Amazon Web Services,Amazon S3,Pyspark,Aws Glue,真希望有人能帮我我想读入路径“s3://…/year=2019/month=11/day=06/”中的所有json文件。如何使用glueContext.create_dynamic_frame_from_options 如果我使用glueContext.create\u dynamic\u frame\u from\u options（“s3”，format=“json”，connection\u options={“path”：[“s3://…/年=2019/月=11/日=06/”]），它将

真希望有人能帮我

我想读入路径“s3://…/year=2019/month=11/day=06/”中的所有json文件。如何使用glueContext.create_dynamic_frame_from_options

如果我使用glueContext.create\u dynamic\u frame\u from\u options（“s3”，format=“json”，connection\u options={“path”：[“s3://…/年=2019/月=11/日=06/”]），它将不起作用

我不得不列出每一个子桶，我觉得应该有更好的方法。例如：我必须这样做

df0=glueContext.create\u dynamic\u frame\u from\u options（“s3”，format=“json”，connection\u options={“path”：[“s3://…/年=2019/月=11/天=06/天=06/小时=20/分钟=12/”，“s3://…/年=2019/月=11/天=06/小时=20/分钟=14/”，“s3://…/年=2019/月=11/天=06/小时=20/分钟=15/”，“s3://…/年=2019/月=11/天=06/小时=20/分钟=16/”）

我有成千上万的子存储桶要列出，因此我非常感谢任何关于如何让我的生活更轻松的指导。谢谢！！

您将要使用Glue Crawler在Glue数据目录中创建表。然后您可以通过

glueContext.create_dynamic_frame.from_catalog(
    database="mydb",
    table_name="mytable")

这篇AWS博客文章解释了如何在Glue中处理分区数据。

我发现了解决方案->在读取大量文件时使用“递归”选项。

您是否在这个s3路径上创建了分区表？@bdcloud我想年、月、日、小时分钟都是分区谢谢！不过我一直在努力避免爬虫