Hadoop 大数据摄取-Flafka用例_Hadoop_Apache Kafka_Flume Ng

Hadoop 大数据摄取-Flafka用例

hadoop apache-kafka

Hadoop 大数据摄取-Flafka用例,hadoop,apache-kafka,flume-ng,Hadoop,Apache Kafka,Flume Ng,我已经看到，大数据社区非常热衷于以多种方式使用Flafka进行数据接收，但我还没有真正了解原因为了更好地理解这一点，我开发了一个简单的示例，即接收Twitter数据并将其移动到多个接收器（HDFS、Storm、HBase）我已经通过以下两种方式实现了摄取部分：（1）普通Kafka Java Producer，具有多个消费者（2）Flume代理#1（Twitter源+Kafka接收器）|（潜在）Flume代理#2（Kafka源+多个接收器）。我还没有看到开发这些解决方案的复杂性有什么不同（

我已经看到，大数据社区非常热衷于以多种方式使用Flafka进行数据接收，但我还没有真正了解原因

为了更好地理解这一点，我开发了一个简单的示例，即接收Twitter数据并将其移动到多个接收器（HDFS、Storm、HBase）

我已经通过以下两种方式实现了摄取部分：（1）普通Kafka Java Producer，具有多个消费者（2）Flume代理#1（Twitter源+Kafka接收器）|（潜在）Flume代理#2（Kafka源+多个接收器）。我还没有看到开发这些解决方案的复杂性有什么不同（不是一个生产系统，我不能对性能发表评论）-我在网上发现，Flafka的一个很好的用例是来自多个来源的数据，这些数据需要在一个地方聚合，然后才能在不同的地方使用

有人能解释为什么我会使用Flume+Kafka而不是普通的Kafka或普通的Flume吗
人们通常将Flume和Kafka结合在一起，因为Flume拥有一套强大的（经过战斗考验的）连接器（HDFS、Twitter、HBase等），而Kafka带来了弹性。此外，Kafka有助于在节点之间分发Flume事件
编辑：
Kafka跨多个主题复制每个主题分区的日志可配置的服务器数量（您可以在一个主题一个主题的基础上）。这允许自动故障切换到这些服务器当群集中的服务器发生故障时复制副本，因此消息保留在出现故障时可用。-

因此，只要Flume将消息发送给Kafka，您就可以保证您的数据不会丢失。注意：你可以在吞食的每个阶段将卡夫卡与水槽结合起来（即卡夫卡也可以用作源、通道和汇）。
自己尝试后，你得出了什么结论？你自己做过调查吗？如果是这样的话，你从他们那里得到了什么？你觉得还缺少什么？有没有可能在最后一句话中再解释一下？你是说卡夫卡将复制从Flume代理接收的数据（用于容错）？