Amazon web services 如何使用glueContext.create_dynamic_frame_from_options读取大量Json存储桶
真希望有人能帮我 我想读入路径“s3://…/year=2019/month=11/day=06/”中的所有json文件。如何使用glueContext.create_dynamic_frame_from_options 如果我使用glueContext.create\u dynamic\u frame\u from\u options(“s3”,format=“json”,connection\u options={“path”:[“s3://…/年=2019/月=11/日=06/”]),它将不起作用 我不得不列出每一个子桶,我觉得应该有更好的方法。例如:我必须这样做Amazon web services 如何使用glueContext.create_dynamic_frame_from_options读取大量Json存储桶,amazon-web-services,amazon-s3,pyspark,aws-glue,Amazon Web Services,Amazon S3,Pyspark,Aws Glue,真希望有人能帮我 我想读入路径“s3://…/year=2019/month=11/day=06/”中的所有json文件。如何使用glueContext.create_dynamic_frame_from_options 如果我使用glueContext.create\u dynamic\u frame\u from\u options(“s3”,format=“json”,connection\u options={“path”:[“s3://…/年=2019/月=11/日=06/”]),它将
df0=glueContext.create\u dynamic\u frame\u from\u options(“s3”,format=“json”,connection\u options={“path”:[“s3://…/年=2019/月=11/天=06/天=06/小时=20/分钟=12/”,“s3://…/年=2019/月=11/天=06/小时=20/分钟=14/”,“s3://…/年=2019/月=11/天=06/小时=20/分钟=15/”,“s3://…/年=2019/月=11/天=06/小时=20/分钟=16/”)
我有成千上万的子存储桶要列出,因此我非常感谢任何关于如何让我的生活更轻松的指导。谢谢!!您将要使用Glue Crawler在Glue数据目录中创建表。然后您可以通过
glueContext.create_dynamic_frame.from_catalog(
database="mydb",
table_name="mytable")
这篇AWS博客文章解释了如何在Glue中处理分区数据。我发现了解决方案->在读取大量文件时使用“递归”选项。您是否在这个s3路径上创建了分区表?@bdcloud我想年、月、日、小时分钟都是分区谢谢!不过我一直在努力避免爬虫