PySpark使用“保存到红移表”;“过度渲染”;模式导致删除表?

PySpark使用“保存到红移表”;“过度渲染”;模式导致删除表?,pyspark,aws-glue,Pyspark,Aws Glue,在AWS Glue中使用PySpark将数据从S3文件加载到红移表,在代码使用模式(“Overwirte”)下,错误声明为“无法删除表,因为其他对象依赖于该表”,结果是在该表顶部创建了视图,“Overwrite”模式实际删除并重新创建红移表,然后加载数据,是否有任何选项只“截断”表而不删除它 AWS胶水使用(没有任何地方记录,但我根据经验进行了验证)。Spark redshift connector的文档中提到: 覆盖现有表:默认情况下,此库使用事务执行覆盖,覆盖是通过删除目标表、创建新的空表并

在AWS Glue中使用PySpark将数据从S3文件加载到红移表,在代码使用模式(“Overwirte”)下,错误声明为“无法删除表,因为其他对象依赖于该表”,结果是在该表顶部创建了视图,“Overwrite”模式实际删除并重新创建红移表,然后加载数据,是否有任何选项只“截断”表而不删除它

AWS胶水使用(没有任何地方记录,但我根据经验进行了验证)。Spark redshift connector的文档中提到:

覆盖现有表:默认情况下,此库使用事务执行覆盖,覆盖是通过删除目标表、创建新的空表并向其追加行来实现的


这里有一个与您的问题相关的讨论,他们使用了truncate而不是overwrite,这也是lambda和glue的组合。请参阅详细讨论和代码示例。希望这有帮助


关于

该线程讨论了先使用两个作业截断红移表,然后运行AWS粘合作业加载数据。我正试图找到一种方法来实现这一点,即插入连接到Redshift db的代码,截断目标表,然后加载数据,这是可能的吗?有样本代码吗?