Amazon web services 带AWS胶水的卡夫卡_Amazon Web Services_Apache Kafka_Aws Glue

Amazon web services 带AWS胶水的卡夫卡

amazon-web-services apache-kafka

Amazon web services 带AWS胶水的卡夫卡,amazon-web-services,apache-kafka,aws-glue,Amazon Web Services,Apache Kafka,Aws Glue,我们有一个在AWS上运行的Kafka服务，并计划使用Athena/S3长期存储我们的分析数据。是否可以将Kafka与AWS Glue服务一起用于从Kafka读取数据并存储在s3中？最好的选择是使用Confluent的开源Kafka Connector for s3，因为它可以确保即使服务出现故障并重新启动，也只向s3写入一次数据。它也是一种实时流媒体集成，因此数据可以立即写入S3，而无需额外延迟文件如下：源代码位于github上： Docker图片如下：可执行程序包和tarball下

我们有一个在AWS上运行的Kafka服务，并计划使用Athena/S3长期存储我们的分析数据。是否可以将Kafka与AWS Glue服务一起用于从Kafka读取数据并存储在s3中？

最好的选择是使用Confluent的开源Kafka Connector for s3，因为它可以确保即使服务出现故障并重新启动，也只向s3写入一次数据。它也是一种实时流媒体集成，因此数据可以立即写入S3，而无需额外延迟

文件如下：

源代码位于github上：

Docker图片如下：

可执行程序包和tarball下载：

Kafka Sink Connector for S3是使用官方的Apache Kafka Connect API编写的，因此它在标准的Connect分布式工作容器中运行，并且可以通过Kafka的分区和并行消耗水平地放大/缩小任务或实例的数量，以获得高吞吐量。

最好使用开源Kafka来自Confluent的S3连接器，因为它保证即使服务出现故障并重新启动，也只向S3写入一次。它也是一种实时流媒体集成，因此数据可以立即写入S3，而无需额外延迟

文件如下：

源代码位于github上：

Docker图片如下：

可执行程序包和tarball下载：

我同意Kafka Connect连接到S3。如果您想对表执行某些操作，请查看K个表并在Kafka中执行此操作，那么仍然可以使用kafk connect移动到S3。如果将此作为ETL的一部分，您可能还需要重新考虑您的ETL工具，或者将其添加到您的工具集中并使用Datatricks。

我同意kafka connect连接到S3。如果您想对表执行某些操作，请查看K个表并在Kafka中执行此操作，那么仍然可以使用kafk connect移动到S3。如果将此作为ETL的一部分，您可能还需要重新考虑您的ETL工具，或者添加到您的工具集中并使用DataRicks。

这将使文件进入S3，但问题似乎是需要在它们之上有一个Hive/Athena表定义来查询，哪个S3连接器没有原始kafka日志数据在S3中之后，您可以创建外部表，如本博客文章“创建表”部分中的示例所示。如果在数据到达S3之前需要对其进行任何更复杂的转换或连接，那么这些可以作为单消息转换（SMT）完成在S3的Kafka接收器连接器中，或者在原始Kafka主题上使用Confluent KSQL。HDFS接收器可以选择与Hive metastore集成，因此我认为OP正在寻找类似的东西。使用HDFS接收器并指向Glue目录和S3似乎不是一种简单的方法，但理论上这应该是可能的。Athena最近增加了对INSERT的支持，因此我想知道您是否可以将Athena用作JDBC接收器，它将为您管理目录，并在S3之上的抽象级别上工作。这将使文件进入S3，但问题似乎是需要一个位于它们之上的Hive/Athena表定义来查询，哪个S3连接器没有原始kafka日志数据在S3中之后，您可以创建外部表，如本博客文章“创建表”部分中的示例所示。如果在数据到达S3之前需要对其进行任何更复杂的转换或连接，那么这些可以作为单消息转换（SMT）完成在S3的Kafka接收器连接器中，或者在原始Kafka主题上使用Confluent KSQL。HDFS接收器可以选择与Hive metastore集成，因此我认为OP正在寻找类似的东西。使用HDFS接收器并指向Glue目录和S3似乎不是一种简单的方法，但理论上这应该是可能的。Athena最近增加了对插入的支持，因此我想知道您是否可以将Athena用作JDBC接收器，它将为您管理目录，并在S3以上的抽象级别上工作。