Amazon web services AWS S3带标签、发电机B、红移?

Amazon web services AWS S3带标签、发电机B、红移?,amazon-web-services,amazon-s3,amazon-dynamodb,amazon-redshift,Amazon Web Services,Amazon S3,Amazon Dynamodb,Amazon Redshift,我将云存储与一大组具有特定“属性”的文件进行比较。目前,它的文件容量约为2.5TB,并且增长迅速。我需要高吞吐量的写入和查询。我将首先编写要存储的文件和属性,然后查询以汇总属性(计数等),另外查询属性以提取小文件集(按日期、名称等) 我已经将Google云数据存储作为noSQL选项进行了探索,但尝试将其与AWS服务进行比较 一种选择是在S3中存储带有“标记”的文件。我相信您可以使用RESTAPI查询这些问题,但需要考虑性能。我也看到了连接Athena的建议,但不确定这是否会引入标签和正确的用例

我将云存储与一大组具有特定“属性”的文件进行比较。目前,它的文件容量约为2.5TB,并且增长迅速。我需要高吞吐量的写入和查询。我将首先编写要存储的文件和属性,然后查询以汇总属性(计数等),另外查询属性以提取小文件集(按日期、名称等)

我已经将Google云数据存储作为noSQL选项进行了探索,但尝试将其与AWS服务进行比较

一种选择是在S3中存储带有“标记”的文件。我相信您可以使用RESTAPI查询这些问题,但需要考虑性能。我也看到了连接Athena的建议,但不确定这是否会引入标签和正确的用例

另一种选择是使用像Dynamo或可能是大型RDS这样的设备?红移说这是PB级的,我们还没有做到


关于最佳AWS存储解决方案的想法?定价是一个考虑因素,但更关心的是未来的最佳解决方案。

您不希望将文件本身存储在RDS或Redshift之类的数据库中。您肯定应该将文件存储在S3中,但您可能应该将元数据存储或复制到更易于索引和搜索的位置


我建议在S3中设置一个新的对象触发器,每当一个新文件上传到S3时,它就会触发Lambda函数。Lambda函数可以获取文件位置、大小、任何标记等,并将该元数据插入Redshift、DynamoDB、Elastic Search或类似Aurora的RDS数据库,然后您可以在其中对该元数据执行查询。除非您正在谈论数百万个文件,否则元数据将相当小,并且您可能不需要红移的规模。您选择存储元数据的确切数据库取决于您的用例,例如您要执行的特定查询。

您不希望将文件本身存储在RDS或Redshift之类的数据库中。您肯定应该将文件存储在S3中,但您可能应该将元数据存储或复制到更易于索引和搜索的位置


我建议在S3中设置一个新的对象触发器,每当一个新文件上传到S3时,它就会触发Lambda函数。Lambda函数可以获取文件位置、大小、任何标记等,并将该元数据插入Redshift、DynamoDB、Elastic Search或类似Aurora的RDS数据库,然后您可以在其中对该元数据执行查询。除非您正在谈论数百万个文件,否则元数据将相当小,并且您可能不需要红移的规模。您选择存储元数据的确切数据库将取决于您的用例,例如您要执行的特定查询。

谢谢@mark-b。我在使用文件系统和mysql w/索引的当前解决方案中考虑了这种ETL方法。我想这就是为什么我喜欢谷歌的一站式云数据存储:)我想AWS不匹配谷歌的存储和搜索层?你具体在说什么谷歌服务?这我相信这将直接与DynamoDB相媲美。你也不想将原始文件存储在谷歌服务中。在谷歌上,你可能想用它来存储实际的文件:这将与亚马逊的S3相比较。谢谢@mark-b。我在使用文件系统和mysql w/索引的当前解决方案中考虑了这种ETL方法。我想这就是为什么我喜欢谷歌的一站式云数据存储:)我想AWS不匹配谷歌的存储和搜索层?你具体在说什么谷歌服务?这我相信这将直接与DynamoDB相媲美。你也不想将原始文件存储在谷歌服务中。在谷歌上,你会想用它来存储实际的文件:这将与亚马逊的S3相比较。