Amazon s3 多部分s3的原子更新

Amazon s3 多部分s3的原子更新,amazon-s3,atomic,Amazon S3,Atomic,我需要将多个文件从Java应用程序更新到s3。但关键是我们需要所有的文件原子化,即全部或全无 我找不到任何解决办法。 欢迎提出任何建议 谢谢 到目前为止,我能找到的唯一优雅的解决方案是在数据帧中读取它(使用spark libs)并编写它 我还实现了一些提交文件的基本检查(比如_commit),以实现锁定/同步,这基本上也是由Spark API完成的 希望有帮助。如果任何人有任何其他解决方案,欢迎分享。:) S3是一个最终的一致性存储,因此您需要一些机制,如_commit。拼花地板格式和其他为你做

我需要将多个文件从Java应用程序更新到s3。但关键是我们需要所有的文件原子化,即全部或全无

我找不到任何解决办法。 欢迎提出任何建议


谢谢

到目前为止,我能找到的唯一优雅的解决方案是在数据帧中读取它(使用spark libs)并编写它

我还实现了一些提交文件的基本检查(比如_commit),以实现锁定/同步,这基本上也是由Spark API完成的


希望有帮助。如果任何人有任何其他解决方案,欢迎分享。:)

S3是一个最终的一致性存储,因此您需要一些机制,如_commit。拼花地板格式和其他为你做这件事。格式选项取决于您的读者,例如,拼花地板没有红移散装装载机,因此AVRO是该用例的更好格式


需要处理这些文件的所有系统都支持哪些通用格式?

Parquet不一定能为我做到这一点。因为Spark写作时可能会有多个拼花,其中一些可能会提前完成,另一些可能会晚些完成。我同意"承诺"的方法,这就是我们所做的。