elasticsearch,amazon-s3,amazon-dynamodb,data-lake,Amazon Web Services,elasticsearch,Amazon S3,Amazon Dynamodb,Data Lake" /> elasticsearch,amazon-s3,amazon-dynamodb,data-lake,Amazon Web Services,elasticsearch,Amazon S3,Amazon Dynamodb,Data Lake" />

Amazon web services AWS数据湖发电机vs ElasticSearch

Amazon web services AWS数据湖发电机vs ElasticSearch,amazon-web-services,elasticsearch,amazon-s3,amazon-dynamodb,data-lake,Amazon Web Services,elasticsearch,Amazon S3,Amazon Dynamodb,Data Lake,我真的很难理解Dynamo/ElasticSearch应该如何用于支持AWS数据湖工作(元数据/目录)。似乎您会在Dynamo中记录zip归档文件的各个S3位置,以及您希望在ES中搜索的任何其他元数据/属性。如果这是正确的,您将如何将两者结合起来来支持这一点。我试图找到更详细的关于如何正确地将两者配对的信息,但没有成功。其他人拥有的任何信息/文档都会很好。很可能我忽略了一些明显的示例/文档 我的想象是这样的: 用户可以在ES中搜索元数据/属性,这些元数据/属性将指向匹配的高级S3存储桶/分区

我真的很难理解Dynamo/ElasticSearch应该如何用于支持AWS数据湖工作(元数据/目录)。似乎您会在Dynamo中记录zip归档文件的各个S3位置,以及您希望在ES中搜索的任何其他元数据/属性。如果这是正确的,您将如何将两者结合起来来支持这一点。我试图找到更详细的关于如何正确地将两者配对的信息,但没有成功。其他人拥有的任何信息/文档都会很好。很可能我忽略了一些明显的示例/文档

我的想象是这样的:

  • 用户可以在ES中搜索元数据/属性,这些元数据/属性将指向匹配的高级S3存储桶/分区
  • DynamoDB中的搜索将针对ES结果中的密钥部分(分区/存储桶)
  • 搜索很可能会产生许多单独的对象/键,然后可以对这些对象/键进行处理、提取等

我与我们的一位AWS代表进行了交谈,他向我推荐了这篇文章。这是一个很好的起点。这似乎回答了我关于组件和方法的用户的一些问题,我以前不清楚这些问题

亮点:

  • 实现数据湖的蓝图。S3/DynamoDB/ES的组合很常见
  • 实现有许多变化。用RDS代替ES/DynamoDB,仅使用ES等
  • 我们最有可能从RDS开始训练流程,然后转到DyanmoDB/ES
    是的,听起来不错。使用每项服务以获得最佳效果。S3-可靠的存储。DynamoDB-快速搜索分区键。弹性搜索-快速准确的搜索能力。您只需在所有3个服务中共享一个唯一ID(uuid)即可将记录链接在一起。