Amazon web services AWS S3带标签、发电机B、红移？_Amazon Web Services_Amazon S3_Amazon Dynamodb_Amazon Redshift

Amazon web services AWS S3带标签、发电机B、红移？

amazon-web-services amazon-s3 amazon-dynamodb amazon-redshift

Amazon web services AWS S3带标签、发电机B、红移？,amazon-web-services,amazon-s3,amazon-dynamodb,amazon-redshift,Amazon Web Services,Amazon S3,Amazon Dynamodb,Amazon Redshift,我将云存储与一大组具有特定“属性”的文件进行比较。目前，它的文件容量约为2.5TB，并且增长迅速。我需要高吞吐量的写入和查询。我将首先编写要存储的文件和属性，然后查询以汇总属性（计数等），另外查询属性以提取小文件集（按日期、名称等）我已经将Google云数据存储作为noSQL选项进行了探索，但尝试将其与AWS服务进行比较一种选择是在S3中存储带有“标记”的文件。我相信您可以使用RESTAPI查询这些问题，但需要考虑性能。我也看到了连接Athena的建议，但不确定这是否会引入标签和正确的用例

我将云存储与一大组具有特定“属性”的文件进行比较。目前，它的文件容量约为2.5TB，并且增长迅速。我需要高吞吐量的写入和查询。我将首先编写要存储的文件和属性，然后查询以汇总属性（计数等），另外查询属性以提取小文件集（按日期、名称等）

我已经将Google云数据存储作为noSQL选项进行了探索，但尝试将其与AWS服务进行比较

一种选择是在S3中存储带有“标记”的文件。我相信您可以使用RESTAPI查询这些问题，但需要考虑性能。我也看到了连接Athena的建议，但不确定这是否会引入标签和正确的用例

另一种选择是使用像Dynamo或可能是大型RDS这样的设备？红移说这是PB级的，我们还没有做到

关于最佳AWS存储解决方案的想法？定价是一个考虑因素，但更关心的是未来的最佳解决方案。

您不希望将文件本身存储在RDS或Redshift之类的数据库中。您肯定应该将文件存储在S3中，但您可能应该将元数据存储或复制到更易于索引和搜索的位置

我建议在S3中设置一个新的对象触发器，每当一个新文件上传到S3时，它就会触发Lambda函数。Lambda函数可以获取文件位置、大小、任何标记等，并将该元数据插入Redshift、DynamoDB、Elastic Search或类似Aurora的RDS数据库，然后您可以在其中对该元数据执行查询。除非您正在谈论数百万个文件，否则元数据将相当小，并且您可能不需要红移的规模。您选择存储元数据的确切数据库取决于您的用例，例如您要执行的特定查询。

您不希望将文件本身存储在RDS或Redshift之类的数据库中。您肯定应该将文件存储在S3中，但您可能应该将元数据存储或复制到更易于索引和搜索的位置

我建议在S3中设置一个新的对象触发器，每当一个新文件上传到S3时，它就会触发Lambda函数。Lambda函数可以获取文件位置、大小、任何标记等，并将该元数据插入Redshift、DynamoDB、Elastic Search或类似Aurora的RDS数据库，然后您可以在其中对该元数据执行查询。除非您正在谈论数百万个文件，否则元数据将相当小，并且您可能不需要红移的规模。您选择存储元数据的确切数据库将取决于您的用例，例如您要执行的特定查询。

谢谢@mark-b。我在使用文件系统和mysql w/索引的当前解决方案中考虑了这种ETL方法。我想这就是为什么我喜欢谷歌的一站式云数据存储：）我想AWS不匹配谷歌的存储和搜索层？你具体在说什么谷歌服务？这我相信这将直接与DynamoDB相媲美。你也不想将原始文件存储在谷歌服务中。在谷歌上，你可能想用它来存储实际的文件：这将与亚马逊的S3相比较。谢谢@mark-b。我在使用文件系统和mysql w/索引的当前解决方案中考虑了这种ETL方法。我想这就是为什么我喜欢谷歌的一站式云数据存储：）我想AWS不匹配谷歌的存储和搜索层？你具体在说什么谷歌服务？这我相信这将直接与DynamoDB相媲美。你也不想将原始文件存储在谷歌服务中。在谷歌上，你会想用它来存储实际的文件：这将与亚马逊的S3相比较。