Amazon s3 amazon athena和汇合模式注册表

Amazon s3 amazon athena和汇合模式注册表,amazon-s3,apache-kafka,avro,amazon-athena,confluent-schema-registry,Amazon S3,Apache Kafka,Avro,Amazon Athena,Confluent Schema Registry,我们计划将事件从Kafka卸载到S3(例如通过使用Kafka connect)。目标是启动服务(如amazon Athena),并在导出的avro事件之上提供查询接口。障碍是amazon Athena avro SerDe(使用org.apache.hadoop.hive.serde2.avro.AvroSerDe)不支持schema registry用于存储模式id的神奇字节。您知道有什么替代方案可以很好地使用confluent schema registry吗 谢谢 使用S3 Connect

我们计划将事件从Kafka卸载到S3(例如通过使用Kafka connect)。目标是启动服务(如amazon Athena),并在导出的avro事件之上提供查询接口。障碍是amazon Athena avro SerDe(使用org.apache.hadoop.hive.serde2.avro.AvroSerDe)不支持schema registry用于存储模式id的神奇字节。您知道有什么替代方案可以很好地使用confluent schema registry吗


谢谢

使用S3 Connect的AvroConverter不会在文件中放入任何模式ID。事实上,在写入消息之后,模式ID将完全丢失

我们有很多配置单元表可以很好地处理这些文件,用户可以使用Athena、Presto进行查询。SparkSQL等

注意:如果您想使用AWS Glue,S3 Connect(目前,从5.x开始)不像HDFS连接器那样提供自动配置单元分区创建,因此如果您想这样使用它,您可能需要寻找替代方法