Hadoop 大数据摄取-Flafka用例
我已经看到,大数据社区非常热衷于以多种方式使用Flafka进行数据接收,但我还没有真正了解原因 为了更好地理解这一点,我开发了一个简单的示例,即接收Twitter数据并将其移动到多个接收器(HDFS、Storm、HBase) 我已经通过以下两种方式实现了摄取部分: (1) 普通Kafka Java Producer,具有多个消费者(2)Flume代理#1(Twitter源+Kafka接收器)|(潜在)Flume代理#2(Kafka源+多个接收器)。我还没有看到开发这些解决方案的复杂性有什么不同(不是一个生产系统,我不能对性能发表评论)-我在网上发现,Flafka的一个很好的用例是来自多个来源的数据,这些数据需要在一个地方聚合,然后才能在不同的地方使用Hadoop 大数据摄取-Flafka用例,hadoop,apache-kafka,flume-ng,Hadoop,Apache Kafka,Flume Ng,我已经看到,大数据社区非常热衷于以多种方式使用Flafka进行数据接收,但我还没有真正了解原因 为了更好地理解这一点,我开发了一个简单的示例,即接收Twitter数据并将其移动到多个接收器(HDFS、Storm、HBase) 我已经通过以下两种方式实现了摄取部分: (1) 普通Kafka Java Producer,具有多个消费者(2)Flume代理#1(Twitter源+Kafka接收器)|(潜在)Flume代理#2(Kafka源+多个接收器)。我还没有看到开发这些解决方案的复杂性有什么不同(
有人能解释为什么我会使用Flume+Kafka而不是普通的Kafka或普通的Flume吗 人们通常将Flume和Kafka结合在一起,因为Flume拥有一套强大的(经过战斗考验的)连接器(HDFS、Twitter、HBase等),而Kafka带来了弹性。此外,Kafka有助于在节点之间分发Flume事件 编辑: Kafka跨多个主题复制每个主题分区的日志 可配置的服务器数量(您可以在 一个主题一个主题的基础上)。这允许自动故障切换到这些服务器 当群集中的服务器发生故障时复制副本,因此消息保留 在出现故障时可用。-
因此,只要Flume将消息发送给Kafka,您就可以保证您的数据不会丢失。注意:你可以在吞食的每个阶段将卡夫卡与水槽结合起来(即卡夫卡也可以用作源、通道和汇)。自己尝试后,你得出了什么结论?你自己做过调查吗?如果是这样的话,你从他们那里得到了什么?你觉得还缺少什么?有没有可能在最后一句话中再解释一下?你是说卡夫卡将复制从Flume代理接收的数据(用于容错)?