Amazon web services AWS胶水书签生成重复项

Amazon web services AWS胶水书签生成重复项,amazon-web-services,apache-spark,parquet,aws-glue,Amazon Web Services,Apache Spark,Parquet,Aws Glue,我正在提交一个Python脚本(实际上是pyspark)到一个Glue作业,以处理拼花地板文件并从该数据源提取一些分析 这些拼花文件位于S3文件夹中,并随着新数据的增加而不断增加。我对AWS Glue提供的书签逻辑很满意,因为它帮助很大:基本上允许我们只处理新数据,而不重新处理已经处理过的数据 不幸的是,在这个场景中,我注意到每次都会产生副本,看起来AWS Glue书签根本不起作用。这种意外行为的原因是什么?来自 目前不支持Apache拼花和ORC格式 更新 因为AWS胶水支持拼花地板和ORC格

我正在提交一个Python脚本(实际上是pyspark)到一个Glue作业,以处理拼花地板文件并从该数据源提取一些分析

这些拼花文件位于S3文件夹中,并随着新数据的增加而不断增加。我对AWS Glue提供的书签逻辑很满意,因为它帮助很大:基本上允许我们只处理新数据,而不重新处理已经处理过的数据

不幸的是,在这个场景中,我注意到每次都会产生副本,看起来AWS Glue书签根本不起作用。这种意外行为的原因是什么?

来自

目前不支持Apache拼花和ORC格式

更新

因为AWS胶水支持拼花地板和ORC格式以及书签

来自

目前不支持Apache拼花和ORC格式

更新

因为AWS胶水支持拼花地板和ORC格式以及书签


请您现在检查一下好吗。它支持拼花地板和兽人。但是版本1.0和更高版本。版本0.9,它不支持


请您现在检查一下好吗。它支持拼花地板和兽人。但是版本1.0和更高版本。版本0.9,它不支持