Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/apache-kafka/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Amazon web services 带AWS胶水的卡夫卡_Amazon Web Services_Apache Kafka_Aws Glue - Fatal编程技术网

Amazon web services 带AWS胶水的卡夫卡

Amazon web services 带AWS胶水的卡夫卡,amazon-web-services,apache-kafka,aws-glue,Amazon Web Services,Apache Kafka,Aws Glue,我们有一个在AWS上运行的Kafka服务,并计划使用Athena/S3长期存储我们的分析数据。是否可以将Kafka与AWS Glue服务一起用于从Kafka读取数据并存储在s3中?最好的选择是使用Confluent的开源Kafka Connector for s3,因为它可以确保即使服务出现故障并重新启动,也只向s3写入一次数据。它也是一种实时流媒体集成,因此数据可以立即写入S3,而无需额外延迟 文件如下: 源代码位于github上: Docker图片如下: 可执行程序包和tarball下

我们有一个在AWS上运行的Kafka服务,并计划使用Athena/S3长期存储我们的分析数据。是否可以将Kafka与AWS Glue服务一起用于从Kafka读取数据并存储在s3中?

最好的选择是使用Confluent的开源Kafka Connector for s3,因为它可以确保即使服务出现故障并重新启动,也只向s3写入一次数据。它也是一种实时流媒体集成,因此数据可以立即写入S3,而无需额外延迟

文件如下:

源代码位于github上:

Docker图片如下:

可执行程序包和tarball下载:


Kafka Sink Connector for S3是使用官方的Apache Kafka Connect API编写的,因此它在标准的Connect分布式工作容器中运行,并且可以通过Kafka的分区和并行消耗水平地放大/缩小任务或实例的数量,以获得高吞吐量。

最好使用开源Kafka来自Confluent的S3连接器,因为它保证即使服务出现故障并重新启动,也只向S3写入一次。它也是一种实时流媒体集成,因此数据可以立即写入S3,而无需额外延迟

文件如下:

源代码位于github上:

Docker图片如下:

可执行程序包和tarball下载:


Kafka Sink Connector for S3是使用官方的Apache Kafka Connect API编写的,因此它在标准的Connect分布式工作容器中运行,并且可以通过Kafka的分区和并行消耗水平地放大/缩小任务或实例的数量,以获得高吞吐量。

我同意Kafka Connect连接到S3。如果您想对表执行某些操作,请查看K个表并在Kafka中执行此操作,那么仍然可以使用kafk connect移动到S3。如果将此作为ETL的一部分,您可能还需要重新考虑您的ETL工具,或者将其添加到您的工具集中并使用Datatricks。

我同意kafka connect连接到S3。如果您想对表执行某些操作,请查看K个表并在Kafka中执行此操作,那么仍然可以使用kafk connect移动到S3。如果将此作为ETL的一部分,您可能还需要重新考虑您的ETL工具,或者添加到您的工具集中并使用DataRicks。

这将使文件进入S3,但问题似乎是需要在它们之上有一个Hive/Athena表定义来查询,哪个S3连接器没有原始kafka日志数据在S3中之后,您可以创建外部表,如本博客文章“创建表”部分中的示例所示。如果在数据到达S3之前需要对其进行任何更复杂的转换或连接,那么这些可以作为单消息转换(SMT)完成在S3的Kafka接收器连接器中,或者在原始Kafka主题上使用Confluent KSQL。HDFS接收器可以选择与Hive metastore集成,因此我认为OP正在寻找类似的东西。使用HDFS接收器并指向Glue目录和S3似乎不是一种简单的方法,但理论上这应该是可能的。Athena最近增加了对INSERT的支持,因此我想知道您是否可以将Athena用作JDBC接收器,它将为您管理目录,并在S3之上的抽象级别上工作。这将使文件进入S3,但问题似乎是需要一个位于它们之上的Hive/Athena表定义来查询,哪个S3连接器没有原始kafka日志数据在S3中之后,您可以创建外部表,如本博客文章“创建表”部分中的示例所示。如果在数据到达S3之前需要对其进行任何更复杂的转换或连接,那么这些可以作为单消息转换(SMT)完成在S3的Kafka接收器连接器中,或者在原始Kafka主题上使用Confluent KSQL。HDFS接收器可以选择与Hive metastore集成,因此我认为OP正在寻找类似的东西。使用HDFS接收器并指向Glue目录和S3似乎不是一种简单的方法,但理论上这应该是可能的。Athena最近增加了对插入的支持,因此我想知道您是否可以将Athena用作JDBC接收器,它将为您管理目录,并在S3以上的抽象级别上工作。