Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/apache-kafka/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/ssh/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop 大数据摄取-Flafka用例_Hadoop_Apache Kafka_Flume Ng - Fatal编程技术网

Hadoop 大数据摄取-Flafka用例

Hadoop 大数据摄取-Flafka用例,hadoop,apache-kafka,flume-ng,Hadoop,Apache Kafka,Flume Ng,我已经看到,大数据社区非常热衷于以多种方式使用Flafka进行数据接收,但我还没有真正了解原因 为了更好地理解这一点,我开发了一个简单的示例,即接收Twitter数据并将其移动到多个接收器(HDFS、Storm、HBase) 我已经通过以下两种方式实现了摄取部分: (1) 普通Kafka Java Producer,具有多个消费者(2)Flume代理#1(Twitter源+Kafka接收器)|(潜在)Flume代理#2(Kafka源+多个接收器)。我还没有看到开发这些解决方案的复杂性有什么不同(

我已经看到,大数据社区非常热衷于以多种方式使用Flafka进行数据接收,但我还没有真正了解原因

为了更好地理解这一点,我开发了一个简单的示例,即接收Twitter数据并将其移动到多个接收器(HDFS、Storm、HBase)

我已经通过以下两种方式实现了摄取部分: (1) 普通Kafka Java Producer,具有多个消费者(2)Flume代理#1(Twitter源+Kafka接收器)|(潜在)Flume代理#2(Kafka源+多个接收器)。我还没有看到开发这些解决方案的复杂性有什么不同(不是一个生产系统,我不能对性能发表评论)-我在网上发现,Flafka的一个很好的用例是来自多个来源的数据,这些数据需要在一个地方聚合,然后才能在不同的地方使用


有人能解释为什么我会使用Flume+Kafka而不是普通的Kafka或普通的Flume吗

人们通常将Flume和Kafka结合在一起,因为Flume拥有一套强大的(经过战斗考验的)连接器(HDFS、Twitter、HBase等),而Kafka带来了弹性。此外,Kafka有助于在节点之间分发Flume事件

编辑:

Kafka跨多个主题复制每个主题分区的日志 可配置的服务器数量(您可以在 一个主题一个主题的基础上)。这允许自动故障切换到这些服务器 当群集中的服务器发生故障时复制副本,因此消息保留 在出现故障时可用。-


因此,只要Flume将消息发送给Kafka,您就可以保证您的数据不会丢失。注意:你可以在吞食的每个阶段将卡夫卡与水槽结合起来(即卡夫卡也可以用作源、通道和汇)。

自己尝试后,你得出了什么结论?你自己做过调查吗?如果是这样的话,你从他们那里得到了什么?你觉得还缺少什么?有没有可能在最后一句话中再解释一下?你是说卡夫卡将复制从Flume代理接收的数据(用于容错)?