如何将数据从kafka发送到hive

如何将数据从kafka发送到hive,hive,apache-kafka,Hive,Apache Kafka,我想将数据从Kafka(做一些MapReduce工作)发送到hive。 这适合使用spark流媒体吗? 或者一些更好的方法?您可以使用和HDFS连接器来执行此操作。这会将数据从Kafka流到HDFS,并自动在顶部定义配置单元表。它是可用的或作为的一部分 免责声明:我为Confluent工作。从流式处理的角度来看,提前构建的配置单元表(转储到使用Spark流式处理或Flink中)在大多数情况下都可以正常工作,但如果Spark作业中的配置单元输出模式发生更改怎么办?这就是您可能需要的东西,如Kafk

我想将数据从Kafka(做一些MapReduce工作)发送到hive。
这适合使用spark流媒体吗?
或者一些更好的方法?

您可以使用和HDFS连接器来执行此操作。这会将数据从Kafka流到HDFS,并自动在顶部定义配置单元表。它是可用的或作为的一部分


免责声明:我为Confluent工作。

从流式处理的角度来看,提前构建的配置单元表(转储到使用Spark流式处理或Flink中)在大多数情况下都可以正常工作,但如果Spark作业中的配置单元输出模式发生更改怎么办?这就是您可能需要的东西,如Kafka Connect HDFS连接器或Apache Gobblin


另外,请记住,HDFS不喜欢处理小文件,因此在HDFS之前设置大批量将有利于以后的配置单元使用

在配置单元文档中已经有一个配置单元Kafka ETL实践

用户可以创建一个外部表,该表是一个Kafka主题的视图

有关更多信息:

你好,罗宾,我正在使用卡夫卡HDFS连接器将卡夫卡主题流式传输到Hive。但似乎我只能在流完成后查询数据?但在我的用例中,流不会停止。“似乎我只能在流完成后查询数据”->不,不是这样。正如你所说,流是无限的。你最好从遇到的特定问题开始一个新问题,而不是在现有问题上添加评论。罗宾,你知道有没有一个门户网站可以让用户在遇到问题时快速得到响应吗?因为,我认为confluent的使用并不总是与编程相关,所以在so上发布问题不是一个好的选择。编写一个消费者应用程序,将数据转储到CSV文件中,然后加载到特定的配置单元表是实现这一点的好方法吗?@Den我会避免这种情况,因为消费者应该是无状态的,能够重新平衡,或者至少内置了容错功能。列出的选项有什么问题?谢谢你的回复。我认为使用Spark流媒体是一个很好的选择,可以尝试一下,但是感觉有点沉重。无论如何,我应该试一试。这是对卡夫卡的直接质疑。这里没有L,也没有Hive常见的历史访问。不,有一个ETL实践,您可以查看文档中标题为“Kafka到Hive ETL管道示例”的章节。