Google cloud storage 在谷歌云存储中存储一封电子邮件/文件更好,还是在一个大文件中存储多封电子邮件更好?

Google cloud storage 在谷歌云存储中存储一封电子邮件/文件更好,还是在一个大文件中存储多封电子邮件更好?,google-cloud-storage,Google Cloud Storage,我正在尝试对一些用户的电子邮件进行分析。为了实现这一点,我正在尝试将电子邮件存储在云存储上,以便在它们上运行Hadoop作业。(早些时候我尝试了App Engine数据存储,但它很难扩展这么多用户的数据:达到各种资源限制等) 将一封电子邮件/文件存储在云存储中还是将用户的所有电子邮件存储在一个大文件中更好?在许多关于云存储的示例中,我看到人们在操作大文件,但保留一个文件/电子邮件似乎更符合逻辑。从GCS扩展的角度来看,将所有内容存储在一个对象与多个对象中没有优势。但是,在bucket中列出对象最

我正在尝试对一些用户的电子邮件进行分析。为了实现这一点,我正在尝试将电子邮件存储在云存储上,以便在它们上运行Hadoop作业。(早些时候我尝试了App Engine数据存储,但它很难扩展这么多用户的数据:达到各种资源限制等)
将一封电子邮件/文件存储在云存储中还是将用户的所有电子邮件存储在一个大文件中更好?在许多关于云存储的示例中,我看到人们在操作大文件,但保留一个文件/电子邮件似乎更符合逻辑。

从GCS扩展的角度来看,将所有内容存储在一个对象与多个对象中没有优势。但是,在bucket中列出对象最终是一致的操作。因此,如果您的计算首先将100万个对象上传到一个bucket中,然后立即开始计算,列出bucket中的对象并计算其内容,那么列表可能不完整。您可以通过维护上载对象的清单并将清单传递给计算来解决该问题,而不是让计算列出bucket中的对象。或者,如果您将所有电子邮件加载到一个文件中并上载,则不需要执行存储桶列表操作

如果您计划上载一次数据,然后运行各种分析计算(或修订单个计算并运行多次),则上载大量对象并根据分析计算中列出的存储桶不会有问题,因为最终的一致性问题只会在上传后不久列出bucket的情况下影响您