PySpark使用“保存到红移表”；“过度渲染”；模式导致删除表？_Pyspark_Aws Glue

PySpark使用“保存到红移表”；“过度渲染”；模式导致删除表？

pyspark

PySpark使用“保存到红移表”；“过度渲染”；模式导致删除表？,pyspark,aws-glue,Pyspark,Aws Glue,在AWS Glue中使用PySpark将数据从S3文件加载到红移表，在代码使用模式（“Overwirte”）下，错误声明为“无法删除表，因为其他对象依赖于该表”，结果是在该表顶部创建了视图，“Overwrite”模式实际删除并重新创建红移表，然后加载数据，是否有任何选项只“截断”表而不删除它 AWS胶水使用（没有任何地方记录，但我根据经验进行了验证）。Spark redshift connector的文档中提到：覆盖现有表：默认情况下，此库使用事务执行覆盖，覆盖是通过删除目标表、创建新的空表并

在AWS Glue中使用PySpark将数据从S3文件加载到红移表，在代码使用模式（“Overwirte”）下，错误声明为“无法删除表，因为其他对象依赖于该表”，结果是在该表顶部创建了视图，“Overwrite”模式实际删除并重新创建红移表，然后加载数据，是否有任何选项只“截断”表而不删除它

AWS胶水使用（没有任何地方记录，但我根据经验进行了验证）。Spark redshift connector的文档中提到：

覆盖现有表：默认情况下，此库使用事务执行覆盖，覆盖是通过删除目标表、创建新的空表并向其追加行来实现的

这里有一个与您的问题相关的讨论，他们使用了truncate而不是overwrite，这也是lambda和glue的组合。请参阅详细讨论和代码示例。希望这有帮助

关于

该线程讨论了先使用两个作业截断红移表，然后运行AWS粘合作业加载数据。我正试图找到一种方法来实现这一点，即插入连接到Redshift db的代码，截断目标表，然后加载数据，这是可能的吗？有样本代码吗？